يأخذ إطار LLM الخاص بـ LatticeFlow الطعنة الأولى في قياس امتثال Big AI لقانون الذكاء الاصطناعي للاتحاد الأوروبي
في حين أن المشرعين في معظم البلدان لا يزالون يناقشون كيفية وضع حواجز حماية حول الذكاء الاصطناعي، فإن الاتحاد الأوروبي يتقدم على المجموعة، بعد أن أقر إطارًا قائمًا على المخاطر لتنظيم تطبيقات الذكاء الاصطناعي في وقت سابق من هذا العام.
دخل القانون حيز التنفيذ في أغسطس/آب، على الرغم من أن التفاصيل الكاملة لنظام إدارة الذكاء الاصطناعي في عموم الاتحاد الأوروبي لا تزال قيد الإعداد – على سبيل المثال، يجري وضع قواعد الممارسة. ولكن، خلال الأشهر والسنوات المقبلة، ستبدأ أحكام القانون المتدرجة في التطبيق على تطبيقات الذكاء الاصطناعي وصانعي النماذج، لذا فإن العد التنازلي للامتثال بدأ بالفعل.
إن تقييم ما إذا كانت نماذج الذكاء الاصطناعي تفي بالتزاماتها القانونية وكيفية ذلك هو التحدي التالي. ستدعم نماذج اللغات الكبيرة (LLM)، وغيرها من أنظمة الذكاء الاصطناعي الأساسية أو ذات الأغراض العامة، معظم تطبيقات الذكاء الاصطناعي. لذا يبدو من المهم تركيز جهود التقييم على هذه الطبقة من مجموعة الذكاء الاصطناعي.
خطوة إلى الأمام LatticeFlow AI، وهي منبثقة من جامعة الأبحاث العامة ETH Zurich، والتي تركز على إدارة مخاطر الذكاء الاصطناعي والامتثال.
نشرت يوم الأربعاء ما وصفته بأنه أول تفسير تقني لقانون الاتحاد الأوروبي للذكاء الاصطناعي، مما يعني أنها تسعى إلى ربط المتطلبات التنظيمية بالمتطلبات الفنية، جنبًا إلى جنب مع إطار التحقق من صحة LLM مفتوح المصدر الذي يعتمد على هذا العمل – والذي يطلق عليه Compl-AI (“compl-ai”… شاهد ماذا فعلوا هناك!).
إن مبادرة تقييم نموذج الذكاء الاصطناعي – والتي أطلقوا عليها أيضًا اسم “أول مجموعة مرجعية موجهة نحو التنظيم في LLM” – هي نتيجة تعاون طويل الأمد بين المعهد الفيدرالي السويسري للتكنولوجيا والمعهد البلغاري لعلوم الكمبيوتر والذكاء الاصطناعي والتكنولوجيا (INSAIT). )، لكل LatticeFlow.
يمكن لصانعي نماذج الذكاء الاصطناعي استخدام موقع Compl-AI لطلب تقييم لامتثال التكنولوجيا الخاصة بهم لمتطلبات قانون الاتحاد الأوروبي للذكاء الاصطناعي.
نشرت LatticeFlow أيضًا تقييمات نموذجية للعديد من برامج LLM السائدة، مثل الإصدارات/الأحجام المختلفة لنماذج Meta’s Llama وGPT الخاصة بـ OpenAI، إلى جانب لوحة المتصدرين للامتثال لقانون الذكاء الاصطناعي للاتحاد الأوروبي لـ Big AI.
يقوم الأخير بتصنيف أداء النماذج من أمثال Anthropic، وGoogle، وOpenAI، وMeta، وMistral وفقًا لمتطلبات القانون – على مقياس من 0 (أي عدم الامتثال) إلى 1 (الامتثال الكامل).
يتم وضع علامة على التقييمات الأخرى على أنها غير متاحة عندما يكون هناك نقص في البيانات، أو إذا لم يوفر صانع النموذج الإمكانية. (ملاحظة: في وقت كتابة هذا التقرير، كانت هناك أيضًا بعض الدرجات السالبة المسجلة ولكن قيل لنا أن ذلك يرجع إلى خطأ في واجهة Hugging Face.)
يقوم إطار عمل LatticeFlow بتقييم استجابات LLM عبر 27 معيارًا مثل “الإكمال السام للنص الحميد” و”الإجابات المتحيزة” و”اتباع التعليمات الضارة” و”الصدق” و”الاستدلال المنطقي” على سبيل المثال لا الحصر من فئات القياس التي تستخدمها لـ التقييمات. لذلك يحصل كل نموذج على نطاق من الدرجات في كل عمود (وإلا لا ينطبق).
الامتثال لمنظمة العفو الدولية هو حقيبة مختلطة
إذًا كيف كان أداء ماجستير إدارة الأعمال الكبرى؟ لا توجد نتيجة نموذجية شاملة. لذلك يختلف الأداء اعتمادًا على ما يتم تقييمه بالضبط – ولكن هناك بعض الارتفاعات والانخفاضات الملحوظة عبر المعايير المختلفة.
على سبيل المثال هناك أداء قوي لجميع الموديلات فيما يتعلق بعدم اتباع التعليمات الضارة؛ وأداء قوي نسبيًا في جميع المجالات فيما يتعلق بعدم تقديم إجابات متحيزة – في حين كانت درجات التفكير والمعرفة العامة عبارة عن حقيبة مختلطة أكثر بكثير.
وفي أماكن أخرى، كان اتساق التوصيات، الذي يستخدمه الإطار كمقياس للعدالة، ضعيفا بشكل خاص بالنسبة لجميع النماذج – حيث لم يسجل أي منها أعلى من علامة المنتصف (وكانت معظم العلامات أقل بكثير).
تظهر مجالات أخرى، مثل مدى ملاءمة بيانات التدريب وموثوقية العلامة المائية وقوتها، دون تقييم بشكل أساسي نظرًا لعدد النتائج التي تم وضع علامة N/A عليها.
لاحظت LatticeFlow أن هناك مجالات معينة يكون فيها تقييم امتثال النماذج أكثر صعوبة، مثل المشكلات الساخنة مثل حقوق الطبع والنشر والخصوصية. لذا فهي لا تتظاهر بأن لديها كل الإجابات.
في ورقة بحثية توضح بالتفصيل العمل على الإطار، سلط العلماء المشاركون في المشروع الضوء على كيف أن معظم النماذج الأصغر التي قاموا بتقييمها (معلمات 13B) “سجلت نتائج سيئة في المتانة التقنية والسلامة”.
ووجدوا أيضًا أن “جميع النماذج التي تم فحصها تقريبًا تكافح من أجل تحقيق مستويات عالية من التنوع وعدم التمييز والعدالة”.
ويضيفون: “نعتقد أن أوجه القصور هذه ترجع في المقام الأول إلى تركيز مقدمي النماذج بشكل غير متناسب على تحسين قدرات النموذج، على حساب الجوانب المهمة الأخرى التي أبرزتها المتطلبات التنظيمية لقانون الذكاء الاصطناعي للاتحاد الأوروبي”، مما يشير إلى أنه مع بدء المواعيد النهائية للامتثال، فإن شركات LLM سوف يضطرون إلى تحويل تركيزهم إلى مجالات الاهتمام – “مما يؤدي إلى تطوير أكثر توازناً لمجالات LLM”.
نظرًا لأنه لا أحد يعرف بالضبط ما هو المطلوب للامتثال لقانون الاتحاد الأوروبي للذكاء الاصطناعي، فإن إطار عمل LatticeFlow هو بالضرورة عمل قيد التقدم. وهو أيضًا مجرد تفسير واحد لكيفية ترجمة متطلبات القانون إلى مخرجات فنية يمكن قياسها ومقارنتها. ولكنها بداية مثيرة للاهتمام لما يجب أن يكون جهدًا مستمرًا لاستكشاف تقنيات الأتمتة القوية ومحاولة توجيه مطوريها نحو فائدة أكثر أمانًا.
“يعد الإطار خطوة أولى نحو التقييم الكامل الذي يركز على الامتثال لقانون الاتحاد الأوروبي بشأن الذكاء الاصطناعي – ولكنه مصمم بطريقة يمكن تحديثها بسهولة للتحرك بشكل متزامن مع تحديث القانون وإحراز مجموعات العمل المختلفة تقدمًا.” صرح بيتار تسانكوف، الرئيس التنفيذي لشركة LatticeFlow، لـ TechCrunch. “إن مفوضية الاتحاد الأوروبي تدعم هذا. ونتوقع أن يواصل المجتمع والصناعة تطوير الإطار نحو منصة تقييم كاملة وشاملة لقانون الذكاء الاصطناعي.
وفي تلخيصه للوجبات الرئيسية حتى الآن، قال تسانكوف إنه من الواضح أن نماذج الذكاء الاصطناعي “تم تحسينها في الغالب من أجل القدرات بدلاً من الامتثال”. كما أشار أيضًا إلى “فجوات ملحوظة في الأداء” – مشيرًا إلى أن بعض النماذج ذات القدرة العالية يمكن أن تكون على قدم المساواة مع النماذج الأضعف عندما يتعلق الأمر بالامتثال.
تعد مرونة الهجمات الإلكترونية (على مستوى النموذج) والعدالة من المجالات التي تثير قلقًا خاصًا، وفقًا لتسانكوف، حيث سجلت العديد من النماذج أقل من 50% في المجال السابق.
وقال: “بينما نجحت Anthropic وOpenAI في مواءمة نماذجهما (المغلقة) للتغلب على عمليات كسر الحماية والحقن السريع، فقد ركز بائعو المصادر المفتوحة مثل Mistral بشكل أقل على هذا الأمر”.
ومع أداء “معظم النماذج” بشكل سيئ بنفس القدر فيما يتعلق بمعايير العدالة، اقترح أن يكون هذا أولوية للعمل المستقبلي.
وفيما يتعلق بتحديات قياس أداء ماجستير الحقوق في مجالات مثل حقوق الطبع والنشر والخصوصية، أوضح تسانكوف: “بالنسبة لحقوق الطبع والنشر، يتمثل التحدي في أن المعايير الحالية تتحقق فقط من كتب حقوق الطبع والنشر. يحتوي هذا النهج على قيدين رئيسيين: (1) أنه لا يأخذ في الاعتبار الانتهاكات المحتملة لحقوق الطبع والنشر التي تنطوي على مواد أخرى غير هذه الكتب المحددة، و (2) يعتمد على قياس نموذج الحفظ، وهو أمر بالغ الصعوبة.
“بالنسبة للخصوصية، فإن التحدي مشابه: فالمعيار يحاول فقط تحديد ما إذا كان النموذج قد حفظ معلومات شخصية محددة.”
تحرص LatticeFlow على اعتماد إطار عمل مجاني ومفتوح المصدر وتحسينه من قبل مجتمع أبحاث الذكاء الاصطناعي الأوسع.
وقال البروفيسور مارتن فيتشيف من ETH Zurich والمؤسس والمدير العلمي لـ INSAIT، والذي يشارك أيضًا في العمل، في بيان: “إننا ندعو الباحثين والمطورين والمنظمين في مجال الذكاء الاصطناعي للانضمام إلينا في تطوير هذا المشروع المتطور”. “نحن نشجع المجموعات البحثية والممارسين الآخرين على المساهمة من خلال تحسين رسم خرائط قانون الذكاء الاصطناعي، وإضافة معايير جديدة، وتوسيع إطار العمل مفتوح المصدر هذا.
“يمكن أيضًا توسيع المنهجية لتقييم نماذج الذكاء الاصطناعي مقابل الإجراءات التنظيمية المستقبلية بما يتجاوز قانون الاتحاد الأوروبي للذكاء الاصطناعي، مما يجعلها أداة قيمة للمؤسسات العاملة عبر ولايات قضائية مختلفة.”
اكتشاف المزيد من موقع خبرة التقني
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.