هل نماذج الذكاء الاصطناعي “المرئية” عمياء بالفعل؟
توصف أحدث جولة من نماذج اللغات، مثل GPT-4o وGemini 1.5 Pro، بأنها “متعددة الوسائط”، قادرة على فهم الصور والصوت بالإضافة إلى النص – لكن دراسة جديدة توضح أنها لا تفعل ذلك حقًا. يرى بالطريقة التي قد تتوقعها. في الواقع، قد لا يرون على الإطلاق.
لكي نكون واضحين في البداية، لم يقم أحد بتقديم ادعاءات مثل “هذا الذكاء الاصطناعي يمكنه أن يرى كما يفعل الناس!” (حسنًا… ربما فعل البعض ذلك). لكن التسويق والمعايير المستخدمة للترويج لهذه النماذج تستخدم عبارات مثل “قدرات الرؤية”، و”الفهم البصري”، وما إلى ذلك. يتحدثون عن كيفية رؤية النموذج للصور ومقاطع الفيديو وتحليلها، بحيث يمكنه فعل أي شيء بدءًا من حل الواجبات المنزلية وحتى مشاهدة اللعبة نيابةً عنك.
لذلك، على الرغم من أن ادعاءات هذه الشركات قد تم صياغتها ببراعة، فمن الواضح أنها تريد التعبير عن أن النموذج يرى بمعنى ما من الكلمة. وهو يفعل ذلك – ولكن بنفس الطريقة التي يقوم بها بالرياضيات أو كتابة القصص: مطابقة الأنماط في البيانات المدخلة مع الأنماط الموجودة في بيانات التدريب الخاصة به. يؤدي هذا إلى فشل النماذج بنفس الطريقة التي تفشل بها في بعض المهام الأخرى التي تبدو تافهة، مثل اختيار رقم عشوائي.
أجرى باحثون في جامعة أوبورن وجامعة ألبرتا دراسة – غير رسمية في بعض النواحي، ولكنها منهجية – للفهم البصري لنماذج الذكاء الاصطناعي الحالية. لقد طرحوا على أكبر النماذج متعددة الوسائط سلسلة من المهام البصرية البسيطة جدًا، مثل السؤال عما إذا كان الشكلان متداخلين، أو عدد الأشكال الخماسية الموجودة في الصورة، أو أي حرف في الكلمة محاط بدائرة. (يمكن الاطلاع على ملخص للصفحة الصغيرة هنا.)
إنها من النوع الذي يمكن حتى لطالب الصف الأول أن يتقنه، ولكنه أعطى نماذج الذكاء الاصطناعي صعوبة كبيرة.
“مهامنا السبعة بسيطة للغاية، حيث يمكن للبشر أن يؤديها بدقة 100%. “نتوقع من الذكاء الاصطناعي أن يفعل الشيء نفسه، لكنه ليس كذلك حاليًا”، كتب المؤلف المشارك آنه نجوين في رسالة بالبريد الإلكتروني إلى TechCrunch. “رسالتنا هي ‘انظروا، هذه النماذج الأفضل لا تزال تفشل”. “
خذ اختبار الأشكال المتداخلة: وهو أحد أبسط مهام التفكير البصري التي يمكن تصورها. تم عرضها بدائرتين متداخلتين قليلاً، أو متلامستين فقط، أو مع وجود مسافة بينهما، ولم تتمكن النماذج من تحقيق ذلك بشكل صحيح باستمرار. من المؤكد أن GPT-4o كان على صواب في أكثر من 95% من الحالات عندما كانا متباعدين، ولكن عند مسافات صفر أو صغيرة، كان صحيحًا في 18% فقط من الوقت! Gemini Pro 1.5 هو الأفضل، لكنه لا يزال يحصل على 7/10 فقط على المسافات القريبة.
(لا تظهر الرسوم التوضيحية الأداء الدقيق للنماذج، ولكن المقصود منها إظهار عدم اتساق النماذج عبر الشروط. الإحصائيات الخاصة بكل نموذج موجودة في الورقة.)
أو ماذا عن حساب عدد الدوائر المتشابكة في الصورة؟ أراهن أن حصانًا أعلى من المتوسط يمكنه فعل هذا.
لقد نجحوا جميعًا في تنفيذ الأمر بشكل صحيح بنسبة 100% عندما يكون هناك 5 حلقات، وهو عمل رائع للذكاء الاصطناعي البصري! ولكن إضافة حلقة واحدة يؤدي إلى تدمير النتائج تمامًا. الجوزاء ضائع، غير قادر على القيام بذلك بشكل صحيح مرة واحدة. يجيب Sonnet-3.5 على 6… ثلث الوقت، وGPT-4o أقل بقليل من نصف الوقت. إن إضافة حلقة أخرى يجعل الأمر أكثر صعوبة، ولكن إضافة حلقة أخرى يجعل الأمر أسهل بالنسبة للبعض.
الهدف من هذه التجربة ببساطة هو إظهار أنه مهما كان ما تفعله هذه النماذج، فإنه لا يتوافق حقًا مع ما نعتقد أنه رؤية. بعد كل شيء، حتى لو كانت رؤيتهم سيئة، فإننا لا نتوقع أن تختلف الصور ذات 6 و7 و8 و9 حلقات بشكل كبير في النجاح.
أظهرت المهام الأخرى التي تم اختبارها أنماطًا مماثلة: لم يكن الأمر أنهم كانوا يرون أو يفكرون جيدًا أو سيئًا، ولكن يبدو أن هناك سببًا آخر يجعلهم قادرين على العد في حالة واحدة ولكن ليس في حالة أخرى.
إحدى الإجابات المحتملة، بالطبع، هي التحديق في وجهنا مباشرة: لماذا يجب أن يكونوا جيدين جدًا في الحصول على صورة صحيحة من 5 دوائر، لكنهم يفشلون فشلاً ذريعًا في الباقي، أو عندما تكون 5 خماسيات؟ (لكي نكون منصفين، كان أداء Sonnet-3.5 جيدًا جدًا في هذا الشأن.) لأن جميعهم لديهم صورة مكونة من 5 دوائر تظهر بشكل بارز في بيانات التدريب الخاصة بهم: الحلقات الأولمبية.
لا يتم تكرار هذا الشعار مرارًا وتكرارًا في بيانات التدريب فحسب، بل من المحتمل أن يتم وصفه بالتفصيل في النص البديل وإرشادات الاستخدام والمقالات المتعلقة به. ولكن أين ستجد في بيانات التدريب الخاصة بهم 6 حلقات متشابكة أو 7؟ إذا كانت ردودهم تشير إلى أي شيء… لا مكان! ليس لديهم أي فكرة عما “ينظرون إليه”، وليس لديهم فهم بصري فعلي لماهية الحلقات أو التداخلات أو أي من هذه المفاهيم.
سألت عن رأي الباحثين في هذا “العمى” الذي يتهمون العارضات بوجوده. مثل المصطلحات الأخرى التي نستخدمها، فهي تتمتع بجودة مجسمة ليست دقيقة تمامًا ولكن من الصعب الاستغناء عنها.
كتب نجوين: “أوافق على أن كلمة “أعمى” لها العديد من التعريفات حتى بالنسبة للبشر، ولا توجد حتى الآن كلمة تصف هذا النوع من العمى/عدم حساسية الذكاء الاصطناعي تجاه الصور التي نعرضها”. “في الوقت الحالي، لا توجد تقنية لتصور ما يراه النموذج بالضبط. وسلوكهم عبارة عن وظيفة معقدة لمطالبة إدخال النص، وإدخال الصورة، والعديد من مليارات الأوزان.
لقد توقع أن النماذج ليست عمياء تمامًا، ولكن المعلومات المرئية التي تستخرجها من الصورة هي تقريبية ومجردة، شيء مثل “هناك دائرة على الجانب الأيسر”. لكن النماذج ليس لديها وسيلة لإصدار أحكام بصرية، حيث تجعل استجاباتها مثل ردود شخص مطلع على صورة ما ولكنه لا يستطيع رؤيتها في الواقع.
وكمثال أخير، أرسل نجوين هذا، والذي يدعم الفرضية المذكورة أعلاه:
عندما تتداخل دائرة زرقاء ودائرة خضراء (كما يدفع السؤال النموذج إلى اعتبارها حقيقة)، فغالبًا ما تكون هناك منطقة مظللة باللون السماوي، كما هو الحال في مخطط Venn. إذا سألك أحد هذا السؤال، فمن الممكن أن تعطي أنت أو أي شخص ذكي نفس الإجابة، لأنها معقولة تمامًا… إذا كانت عيناك مغمضتين! ولكن لا أحد بأعينهم يفتح سوف يستجيب بهذه الطريقة.
هل يعني كل هذا أن نماذج الذكاء الاصطناعي “المرئية” هذه عديمة الفائدة؟ بعيد عنه. إن عدم القدرة على القيام بالتفكير الأولي حول صور معينة يشير إلى قدراتها الأساسية، ولكن ليس إلى قدراتها المحددة. من المرجح أن يكون كل نموذج من هذه النماذج دقيقًا للغاية في أشياء مثل تصرفات الإنسان وتعبيراته، وصور الأشياء والمواقف اليومية، وما شابه ذلك. والحقيقة أن هذا هو ما أرادوا تفسيره.
إذا اعتمدنا على تسويق شركات الذكاء الاصطناعي لإخبارنا بكل ما يمكن أن تفعله هذه النماذج، فسنعتقد أن لديهم رؤية 20/20. هناك حاجة إلى بحث كهذا لإظهار أنه، بغض النظر عن مدى دقة النموذج في تحديد ما إذا كان الشخص جالسًا أو يمشي أو يركض، فإنه يفعل ذلك دون “الرؤية” بالمعنى الذي نعنيه (إذا صح التعبير).