أخبار العالم

تدعي المؤسسة التي تقف وراء مجموعة البيانات المستخدمة لتدريب Stable Diffusion أنها قامت بإزالة CSAM

أصدرت LAION، منظمة الأبحاث الألمانية التي أنشأت البيانات المستخدمة لتدريب Stable Diffusion، من بين نماذج الذكاء الاصطناعي التوليدية الأخرى، مجموعة بيانات جديدة تدعي أنها “تم تنظيفها تمامًا من الروابط المعروفة لمواد الاعتداء الجنسي على الأطفال المشتبه بها (CSAM).”

مجموعة البيانات الجديدة، Re-LAION-5B، هي في الواقع إعادة إصدار لمجموعة بيانات قديمة، LAION-5B – ولكن مع “إصلاحات” تم تنفيذها بتوصيات من مؤسسة Internet Watch غير الربحية، وهيومن رايتس ووتش، والمركز الكندي لحماية الطفل ومرصد ستانفورد للإنترنت البائد الآن. إنه متاح للتنزيل في نسختين، Re-LAION-5B Research وRe-LAION-5B Research-Safe (الذي يزيل أيضًا محتوى NSFW الإضافي)، وكلاهما تمت تصفيتهما لآلاف الروابط إلى CSAM المعروفة – و”المحتملة” يقول لايون.

وكتب LAION في منشور بالمدونة: “لقد التزمت LAION بإزالة المحتوى غير القانوني من مجموعات البيانات الخاصة بها منذ البداية ونفذت التدابير المناسبة لتحقيق ذلك منذ البداية”. “تلتزم LAION بشكل صارم بمبدأ إزالة المحتوى غير القانوني في أسرع وقت ممكن بعد أن يصبح معروفًا.”

من المهم ملاحظة أن مجموعات بيانات LAION لا تحتوي على صور ولم تحتوي عليها أبدًا. بل هي فهارس لروابط الصور والنصوص البديلة للصور التي نظمتها LAION، وكلها جاءت من مختلف مجموعة البيانات – الزحف المشترك – للمواقع وصفحات الويب المسروقة.

يأتي إصدار Re-LAION-5B بعد تحقيق أجراه مرصد الإنترنت بجامعة ستانفورد في ديسمبر 2023، والذي وجد أن LAION-5B – على وجه التحديد مجموعة فرعية تسمى LAION-5B 400M – تضمنت ما لا يقل عن 1679 رابطًا لصور غير قانونية تم استخلاصها من منشورات وسائل التواصل الاجتماعي و مواقع الكبار الشعبية. وفقًا للتقرير، يحتوي موقع 400M أيضًا على روابط إلى “مجموعة واسعة من المحتوى غير اللائق بما في ذلك الصور الإباحية والإهانات العنصرية والقوالب النمطية الاجتماعية الضارة”.

في حين أشار مؤلفو التقرير المشاركون في جامعة ستانفورد إلى أنه سيكون من الصعب إزالة المحتوى المسيء وأن وجود CSAM لا يؤثر بالضرورة على مخرجات النماذج المدربة على مجموعة البيانات، قالت LAION إنها ستوقف LAION-5B عن العمل مؤقتًا .

وأوصى تقرير جامعة ستانفورد بضرورة إهمال النماذج التي تم تدريبها على LAION-5B وإيقاف توزيعها حيثما أمكن ذلك. ولعله على نحو متصل، قامت شركة Runway الناشئة للذكاء الاصطناعي مؤخرًا بإلغاء نموذج Stable Diffusion 1.5 من منصة استضافة الذكاء الاصطناعي Hugging Face؛ لقد تواصلنا مع الشركة لمزيد من المعلومات. (عقدت Runway في عام 2023 شراكة مع Stability AI، الشركة التي تقف وراء Stable Diffusion، للمساعدة في تدريب نموذج Stable Diffusion الأصلي.)

من بين مجموعة بيانات Re-LAION-5B الجديدة، والتي تحتوي على حوالي 5.5 مليار زوج من الصور النصية وتم إصدارها بموجب ترخيص Apache 2.0، تقول LAION أنه يمكن لأطراف ثالثة استخدام البيانات التعريفية لتنظيف النسخ الموجودة من LAION-5B عن طريق إزالة مطابقة المحتوى غير القانوني.

تؤكد LAION أن مجموعات البيانات الخاصة بها مخصصة للأغراض البحثية، وليست التجارية. ولكن إذا كان للتاريخ أي مؤشر، فإن ذلك لن يثني بعض المنظمات. وبعيدًا عن الذكاء الاصطناعي المستقر، استخدمت جوجل ذات مرة مجموعات بيانات LAION لتدريب نماذجها المولدة للصور.

“في المجمل، 2236 رابطًا [to suspected CSAM] تمت إزالتها بعد المطابقة مع قوائم الارتباطات وتجزئة الصور المقدمة من شركائنا،” تابع LAION في المنشور. “تتضمن هذه الروابط أيضًا 1008 روابط عثر عليها تقرير مرصد ستانفورد للإنترنت في ديسمبر 2023… ونحن نحث بشدة جميع مختبرات البحث والمنظمات التي لا تزال تستخدم LAION-5B القديم على الانتقال إلى مجموعات بيانات Re-LAION-5B في أقرب وقت ممكن.”

الوسوم

تدعي المؤسسة التي تقف وراء مجموعة البيانات المستخدمة لتدريب Stable Diffusion أنها قامت بإزالة CSAM

eshrag

اترك تعليقاً إلغاء الرد

كيفية إعداد اختصارات نصية مخصصة على Android

6 طرق للتحقق من صحة القرص الصلب على نظام التشغيل Windows 10

Newchip وTechstars وماذا يحدث عندما تفشل مسرعات بدء التشغيل

أغسطس 2024
ن	ث	أرب	خ	ج	س	د
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

eshrag

مقالات ذات صلة

تجمع شركة Doccla الناشئة “المستشفى في المنزل” 46 مليون دولار لتوسعها في أوروبا

شركة Cercli الناشئة لكشوف المرتبات توقع مبلغ 4 ملايين دولار لإنشاء مشروع “Rippling for the Middle East and North Africa”

يأمل مؤسسو BigEndian في استخدام خبرتهم العميقة في مجال الرقائق للمساعدة في تأسيس الهند في مجال أشباه الموصلات

تغلق SparkLabs صندوقًا بقيمة 50 مليون دولار لدعم الشركات الناشئة في مجال الذكاء الاصطناعي

اترك تعليقاً إلغاء الرد

كيفية إعداد اختصارات نصية مخصصة على Android

6 طرق للتحقق من صحة القرص الصلب على نظام التشغيل Windows 10

Newchip وTechstars وماذا يحدث عندما تفشل مسرعات بدء التشغيل