ماذا يعني “الذكاء الاصطناعي مفتوح المصدر” على أية حال؟
إن الصراع بين البرمجيات مفتوحة المصدر والبرمجيات الاحتكارية مفهوم جيدًا. لكن التوترات التي تغلغلت في دوائر البرمجيات لعقود من الزمن انتقلت إلى مجال الذكاء الاصطناعي المزدهر، مع مطاردة مثيرة للجدل.
نشرت صحيفة نيويورك تايمز مؤخرًا تقييمًا رائعًا للرئيس التنفيذي لشركة ميتا مارك زوكربيرج، مشيرة إلى كيف أن احتضانه للذكاء الاصطناعي مفتوح المصدر جعله يتمتع بشعبية مرة أخرى في وادي السيليكون. لكن المشكلة هي أن نماذج اللغات الكبيرة التي تحمل علامة Llama الخاصة بشركة Meta ليست مفتوحة المصدر حقًا.
او انهم؟
في معظم التقديرات، هم ليسوا كذلك. لكنه يسلط الضوء على أن فكرة “الذكاء الاصطناعي مفتوح المصدر” لن تؤدي إلا إلى إثارة المزيد من الجدل في السنوات القادمة. هذا شيء تحاول مبادرة المصدر المفتوح (OSI) معالجته، بقيادة المدير التنفيذي ستيفانو مافولي (في الصورة أعلاه)، الذي يعمل على حل المشكلة لأكثر من عامين من خلال جهد عالمي يشمل المؤتمرات وورش العمل واللجان والندوات عبر الإنترنت والتقارير وأكثر من ذلك.
الذكاء الاصطناعي ليس رمزًا برمجيًا
لقد كان OSI مشرفًا على تعريف المصدر المفتوح (OSD) لأكثر من ربع قرن، موضحًا كيف يمكن، أو ينبغي، تطبيق مصطلح “المصدر المفتوح” على البرامج. ويمكن اعتبار الترخيص الذي يستوفي هذا التعريف “مفتوح المصدر” بشكل شرعي، على الرغم من أنه يعترف بمجموعة من التراخيص التي تتراوح من المسموح بها للغاية إلى غير المسموح بها تمامًا.
لكن نقل اصطلاحات الترخيص والتسمية القديمة من البرامج إلى الذكاء الاصطناعي يمثل مشكلة. يذهب جوزيف جاكس، المبشر بالمصادر المفتوحة ومؤسس شركة رأس المال الاستثماري OSS Capital، إلى حد القول إنه “لا يوجد شيء مثل الذكاء الاصطناعي مفتوح المصدر”، مشيرًا إلى أن “المصدر المفتوح تم اختراعه بشكل صريح من أجل كود مصدر البرنامج”.
في المقابل، فإن “أوزان الشبكة العصبية” (NNWs) – وهو مصطلح يستخدم في عالم الذكاء الاصطناعي لوصف المعلمات أو المعاملات التي تتعلم من خلالها الشبكة أثناء عملية التدريب – لا يمكن مقارنتها بأي طريقة ذات معنى بالبرمجيات.
“الأوزان الصافية العصبية ليست كود مصدر البرنامج؛ ويشير جاك إلى أنها غير قابلة للقراءة من قبل البشر، كما أنها غير قابلة للتصحيح. “علاوة على ذلك، فإن الحقوق الأساسية للمصادر المفتوحة لا تُترجم أيضًا إلى الأسلحة النووية بأي طريقة متطابقة.”
أدى ذلك إلى قيام هيذر ميكر، زميلة جاكس وOSS Capital، بالتوصل إلى تعريفهما الخاص للأنواع، حول مفهوم “الأوزان المفتوحة”.
لذا، قبل أن نصل إلى تعريف ذي معنى لـ “الذكاء الاصطناعي مفتوح المصدر”، يمكننا أن نرى بالفعل بعض التوترات المتأصلة في محاولة الوصول إلى هذا الهدف. كيف يمكننا أن نتفق على تعريف إذا لم نتمكن من الاتفاق على أن “الشيء” الذي نحدده موجود؟
يوافق مافولي على ما يستحق.
وقال لـ TechCrunch: “النقطة صحيحة”. “كانت إحدى المناقشات الأولية التي أجريناها هي ما إذا كنا سنسميها الذكاء الاصطناعي مفتوح المصدر على الإطلاق، ولكن الجميع كان يستخدم هذا المصطلح بالفعل.”
ويعكس هذا بعض التحديات في مجال الذكاء الاصطناعي الأوسع، حيث تكثر المناقشات حول ما إذا كان الشيء الذي نطلق عليه اليوم “الذكاء الاصطناعي” هو في الحقيقة ذكاء اصطناعي أم مجرد أنظمة قوية يتم تدريسها لاكتشاف الأنماط بين مساحات شاسعة من البيانات. لكن الرافضين يستسلمون في الغالب لحقيقة أن مصطلح “الذكاء الاصطناعي” موجود هنا، ولا جدوى من محاربته.
تأسست OSI في عام 1998، وهي شركة ذات منفعة عامة غير ربحية تعمل على عدد لا يحصى من الأنشطة ذات الصلة بالمصادر المفتوحة حول الدعوة والتعليم والسبب الأساسي لوجودها: تعريف المصدر المفتوح. واليوم، تعتمد المنظمة على الرعاية للحصول على التمويل، مع أعضاء محترمين مثل Amazon، وGoogle، وMicrosoft، وCisco، وIntel، وSalesforce، وMeta.
تعد مشاركة Meta مع OSI ملحوظة بشكل خاص في الوقت الحالي لأنها تتعلق بمفهوم “الذكاء الاصطناعي مفتوح المصدر”. على الرغم من تعليق شركة Meta قبعة الذكاء الاصطناعي الخاصة بها على الارتباط مفتوح المصدر، إلا أن الشركة لديها قيود ملحوظة فيما يتعلق بكيفية استخدام نماذج Llama الخاصة بها: بالتأكيد، يمكن استخدامها مجانًا في حالات الاستخدام البحثي والتجاري، لكن مطوري التطبيقات الذين لديهم أكثر من 700 يجب على مليون مستخدم شهريًا أن يطلبوا ترخيصًا خاصًا من Meta، والذي ستمنحه وفقًا لتقديرها الخاص.
ببساطة، يمكن لإخوان ميتا من شركات التكنولوجيا الكبرى أن يطلقوا الصافرة إذا أرادوا الانضمام.
لغة Meta حول LLMs مرنة إلى حد ما. في حين أن الشركة أطلقت على نموذج Llama 2 مصدرًا مفتوحًا، إلا أنها تراجعت إلى حد ما عن المصطلحات مع وصول Llama 3 في أبريل، واستخدمت عبارات مثل “متاح بشكل مفتوح” و”يمكن الوصول إليه بشكل مفتوح” بدلاً من ذلك. ولكن في بعض الأماكن، لا يزال يشير إلى النموذج على أنه “مفتوح المصدر”.
وقال مافولي: “كل من يشارك في المحادثة متفق تمامًا على أن اللاما نفسها لا يمكن اعتبارها مفتوحة المصدر”. “الأشخاص الذين تحدثت معهم والذين يعملون في ميتا، يعرفون أن الأمر مبالغ فيه بعض الشيء.”
علاوة على ذلك، قد يجادل البعض بأن هناك تضاربًا في المصالح هنا: فالشركة التي أظهرت رغبة في الاستفادة من العلامة التجارية مفتوحة المصدر توفر أيضًا الموارد المالية لمشرفي “التعريف”؟
وهذا هو أحد الأسباب وراء محاولة OSI تنويع تمويلها، حيث حصلت مؤخرًا على منحة من مؤسسة Sloan Foundation، التي تساعد في تمويل حملتها العالمية لأصحاب المصلحة المتعددين للوصول إلى تعريف الذكاء الاصطناعي مفتوح المصدر. يمكن لـ TechCrunch أن تكشف عن قيمة هذه المنحة بحوالي 250 ألف دولار، ويأمل مافولي أن يؤدي ذلك إلى تغيير النظرة حول اعتمادها على تمويل الشركات.
وقال مافولي: “هذا أحد الأشياء التي أوضحتها منحة سلون بشكل أكبر: يمكننا أن نقول وداعًا لأموال ميتا في أي وقت”. “يمكننا أن نفعل ذلك حتى قبل منح سلون جرانت، لأنني أعلم أننا سنحصل على تبرعات من الآخرين. وميتا تعرف ذلك جيدًا. إنهم لا يتدخلون في أي من هذا [process]ولا ميكروسوفت أو جيثب أو أمازون أو جوجل – فهم يعرفون تمامًا أنهم لا يستطيعون التدخل، لأن هيكل المنظمة لا يسمح بذلك.
التعريف العملي للذكاء الاصطناعي مفتوح المصدر
تقع مسودة تعريف الذكاء الاصطناعي مفتوح المصدر الحالية في الإصدار 0.0.8، وتشكل ثلاثة أجزاء أساسية: “الديباجة”، التي تحدد اختصاص الوثيقة؛ تعريف الذكاء الاصطناعي مفتوح المصدر نفسه؛ وقائمة مرجعية يتم تشغيلها عبر المكونات المطلوبة لنظام الذكاء الاصطناعي المتوافق مفتوح المصدر.
وفقًا للمسودة الحالية، يجب أن يمنح نظام الذكاء الاصطناعي مفتوح المصدر حريات استخدام النظام لأي غرض دون الحصول على إذن؛ للسماح للآخرين بدراسة كيفية عمل النظام وفحص مكوناته؛ وتعديل ومشاركة النظام لأي غرض من الأغراض.
لكن أحد أكبر التحديات كان يتعلق بالبيانات – أي هل يمكن تصنيف نظام الذكاء الاصطناعي على أنه “مفتوح المصدر” إذا لم تجعل الشركة مجموعة بيانات التدريب متاحة للآخرين للاستفادة منها؟ وفقًا لمافولي، من المهم معرفة مصدر البيانات، وكيف قام المطور بتصنيف البيانات وإلغاء تكرارها وتصفيتها. وأيضًا الوصول إلى الكود الذي تم استخدامه لتجميع مجموعة البيانات من مصادرها المختلفة.
وقال مافولي: “إن معرفة تلك المعلومات أفضل بكثير من الحصول على مجموعة البيانات البسيطة دون بقية البيانات”.
في حين أن الوصول إلى مجموعة البيانات الكاملة سيكون أمرًا جيدًا (يجعل OSI هذا مكونًا “اختياريًا”)، يقول مافولي إن ذلك غير ممكن أو عملي في كثير من الحالات. قد يكون هذا بسبب وجود معلومات سرية أو محمية بحقوق الطبع والنشر مضمنة في مجموعة البيانات وليس لدى المطور إذن بإعادة توزيعها. علاوة على ذلك، هناك تقنيات لتدريب نماذج التعلم الآلي حيث لا تتم مشاركة البيانات نفسها فعليًا مع النظام، وذلك باستخدام تقنيات مثل التعلم الموحد والخصوصية التفاضلية والتشفير المتماثل.
وهذا يسلط الضوء تمامًا على الاختلافات الأساسية بين “البرمجيات مفتوحة المصدر” و”الذكاء الاصطناعي مفتوح المصدر”: قد تكون النوايا متشابهة، لكنها ليست قابلة للمقارنة، وهذا التباين هو ما يحاول OSI التقاطه في تقريره. تعريف.
في البرمجيات، يعد الكود المصدري والكود الثنائي وجهتي نظر لنفس القطعة الأثرية: فهي تعكس نفس البرنامج بأشكال مختلفة. لكن مجموعات بيانات التدريب والنماذج المدربة اللاحقة هي أشياء مختلفة: يمكنك أن تأخذ نفس مجموعة البيانات، ولن تتمكن بالضرورة من إعادة إنشاء نفس النموذج بشكل متسق.
وأضاف مافولي: “هناك مجموعة متنوعة من المنطق الإحصائي والعشوائي الذي يحدث أثناء التدريب مما يعني أنه لا يمكن تكراره بنفس طريقة البرامج”.
لذلك يجب أن يكون من السهل تكرار نظام الذكاء الاصطناعي مفتوح المصدر، مع تعليمات واضحة. وهنا يأتي دور القائمة المرجعية لتعريف الذكاء الاصطناعي مفتوح المصدر، والذي يستند إلى ورقة أكاديمية منشورة مؤخرًا بعنوان “إطار عمل الانفتاح النموذجي: تعزيز الاكتمال والانفتاح من أجل التكاثر والشفافية وسهولة الاستخدام في الذكاء الاصطناعي”.
تقترح هذه الورقة نموذج إطار الانفتاح (MOF)، وهو نظام تصنيف يصنف نماذج التعلم الآلي “بناءً على اكتمالها وانفتاحها”. تطالب وزارة المالية “بإدراج مكونات محددة لتطوير نموذج الذكاء الاصطناعي وإصدارها بموجب تراخيص مفتوحة مناسبة”، بما في ذلك منهجيات التدريب والتفاصيل حول معلمات النموذج.
حالة مستقرة
يطلق OSI على الإطلاق الرسمي للتعريف اسم “الإصدار الثابت”، مثلما تفعل الشركة مع تطبيق خضع لاختبارات وتصحيحات واسعة النطاق قبل وقت الذروة. لا يطلق عليه OSI عمدًا اسم “الإصدار النهائي” لأنه من المحتمل أن تتطور أجزاء منه.
وقال مافولي: “لا يمكننا أن نتوقع أن يستمر هذا التعريف لمدة 26 عامًا مثل تعريف المصدر المفتوح”. “لا أتوقع الجزء العلوي من التعريف – مثل “ما هو نظام الذكاء الاصطناعي؟” – لتغيير الكثير. لكن الأجزاء التي نشير إليها في القائمة المرجعية، تلك القوائم من المكونات، تعتمد على التكنولوجيا؟ غدًا، من يدري كيف ستبدو التكنولوجيا”.
من المتوقع أن يتم اعتماد التعريف المستقر للذكاء الاصطناعي مفتوح المصدر من قبل مجلس الإدارة في مؤتمر All Things Open في نهاية شهر أكتوبر، مع شروع OSI في عرض ترويجي عالمي في الأشهر الفاصلة يمتد إلى خمس قارات، بحثًا عن المزيد من “المدخلات المتنوعة” حول كيفية تعريف “الذكاء الاصطناعي مفتوح المصدر” للمضي قدمًا. ولكن من المرجح أن لا تكون أي تغييرات نهائية أكثر من مجرد “تعديلات صغيرة” هنا وهناك.
قال مافولي: “هذا هو الامتداد الأخير”. “لقد وصلنا إلى نسخة كاملة من التعريف؛ لدينا كل العناصر التي نحتاجها. الآن لدينا قائمة مرجعية، لذلك نحن نتحقق من عدم وجود أي مفاجآت فيها؛ لا توجد أنظمة ينبغي إدراجها أو استبعادها.