قد تكون نماذج TTT هي الحدود التالية في الذكاء الاصطناعي التوليدي
بعد سنوات من هيمنة الذكاء الاصطناعي المعروف باسم المحول، بدأ البحث عن بنيات جديدة.
تدعم المحولات نموذج Sora لإنشاء الفيديو الخاص بشركة OpenAI، كما أنها تقع في قلب نماذج إنشاء النصوص مثل Anthropic’s Claude وGoogle’s Gemini وGPT-4o. لكنهم بدأوا في مواجهة حواجز تقنية – على وجه الخصوص، حواجز الطرق المتعلقة بالحوسبة.
المحولات ليست فعالة بشكل خاص في معالجة وتحليل كميات هائلة من البيانات، على الأقل تعمل على الأجهزة الجاهزة. وهذا يؤدي إلى زيادات حادة وربما غير مستدامة في الطلب على الطاقة مع قيام الشركات ببناء وتوسيع البنية التحتية لاستيعاب متطلبات المحولات.
هناك تصميم واعد تم اقتراحه هذا الشهر وهو التدريب على وقت الاختبار (TTT)، والذي تم تطويره على مدار عام ونصف من قبل باحثين في جامعة ستانفورد، وجامعة كاليفورنيا في سان دييغو، وجامعة كاليفورنيا في بيركلي، وميتا. يدعي فريق البحث أن نماذج TTT لا يمكنها معالجة بيانات أكثر بكثير من المحولات فحسب، بل يمكنها القيام بذلك دون استهلاك نفس القدر من الطاقة الحاسوبية تقريبًا.
الحالة المخفية في المحولات
أحد المكونات الأساسية للمحولات هو “الحالة المخفية”، وهي في الأساس قائمة طويلة من البيانات. عندما يقوم المحول بمعالجة شيء ما، فإنه يضيف إدخالات إلى الحالة المخفية “لتذكر” ما قام بمعالجته للتو. على سبيل المثال، إذا كان النموذج يشق طريقه عبر كتاب، فإن قيم الحالة المخفية ستكون أشياء مثل تمثيلات الكلمات (أو أجزاء من الكلمات).
قال يو صن، وهو باحث ما بعد الدكتوراه في جامعة ستانفورد ومساهم مشارك في بحث TTT، لـ TechCrunch: “إذا كنت تفكر في المحول ككيان ذكي، فإن جدول البحث – حالته المخفية – هو دماغ المحول”. “يُمكّن هذا الدماغ المتخصص القدرات المعروفة للمحولات مثل التعلم في السياق.”
الحالة المخفية هي جزء مما يجعل المحولات قوية جدًا. لكنه يعيقهم أيضًا. “لقول” حتى كلمة واحدة عن كتاب قرأه المحول للتو، يجب على النموذج أن يقوم بمسح جدول البحث بأكمله – وهي مهمة تتطلب حسابيًا مثل إعادة قراءة الكتاب بأكمله.
لذلك خطرت في ذهن صن وفريقه فكرة استبدال الحالة المخفية بنموذج التعلم الآلي – مثل دمى الذكاء الاصطناعي المتداخلة، إذا صح التعبير، نموذج داخل نموذج.
إنه أمر تقني بعض الشيء، ولكن الجوهر هو أن نموذج التعلم الآلي الداخلي لنموذج TTT، على عكس جدول بحث المحول، لا ينمو وينمو أثناء معالجة البيانات الإضافية. وبدلاً من ذلك، يقوم بتشفير البيانات التي يعالجها إلى متغيرات تمثيلية تسمى الأوزان، وهو ما يجعل نماذج TTT عالية الأداء. بغض النظر عن كمية البيانات التي يعالجها نموذج TTT، فإن حجم نموذجه الداخلي لن يتغير.
ويعتقد صن أن نماذج TTT المستقبلية يمكنها معالجة مليارات البيانات بكفاءة، من الكلمات إلى الصور إلى التسجيلات الصوتية إلى مقاطع الفيديو. وهذا يتجاوز بكثير قدرات نماذج اليوم.
وقال صن: “يمكن لنظامنا أن يقول X من الكلمات عن الكتاب دون التعقيد الحسابي لإعادة قراءة الكتاب X مرات”. “نماذج الفيديو الكبيرة المعتمدة على المحولات، مثل Sora، يمكنها معالجة 10 ثوانٍ فقط من الفيديو، لأنها تحتوي فقط على “دماغ” جدول البحث. هدفنا النهائي هو تطوير نظام يمكنه معالجة مقطع فيديو طويل يشبه التجربة البصرية لحياة الإنسان.
الشكوك حول نماذج TTT
فهل ستحل نماذج TTT محل المحولات في نهاية المطاف؟ بامكانهم. ولكن من السابق لأوانه القول على وجه اليقين.
نماذج TTT ليست بديلاً مباشرًا للمحولات. وقام الباحثون بتطوير نموذجين صغيرين فقط للدراسة، مما يجعل TTT كطريقة من الصعب مقارنتها حاليًا ببعض تطبيقات المحولات الأكبر حجمًا الموجودة هناك.
قال مايك كوك، أحد كبار المسؤولين: “أعتقد أنه ابتكار مثير للاهتمام تمامًا، وإذا كانت البيانات تدعم الادعاءات القائلة بأنه يوفر مكاسب في الكفاءة، فهذه أخبار رائعة، لكنني لا أستطيع أن أخبرك ما إذا كان أفضل من البنى التحتية الحالية أم لا”. محاضر في قسم المعلوماتية في جامعة كينجز كوليدج بلندن ولم يشارك في أبحاث TTT. “كان أستاذي القديم يلقي نكتة عندما كنت طالبًا جامعيًا: كيف يمكنك حل أي مشكلة في علوم الكمبيوتر؟ أضف طبقة أخرى من التجريد. إن إضافة شبكة عصبية داخل شبكة عصبية يذكرني بذلك بالتأكيد.
وبغض النظر عن ذلك، فإن الوتيرة المتسارعة للبحث في بدائل المحولات تشير إلى الاعتراف المتزايد بالحاجة إلى تحقيق اختراق.
هذا الأسبوع، أصدرت شركة Mistral الناشئة للذكاء الاصطناعي نموذجًا، Codestral Mamba، يعتمد على بديل آخر للمحول يسمى نماذج مساحة الحالة (SSMs). يبدو أن أجهزة SSM، مثل نماذج TTT، أكثر كفاءة من الناحية الحسابية من المحولات ويمكن أن تصل إلى كميات أكبر من البيانات.
تستكشف AI21 Labs أيضًا أجهزة SSM. وكذلك الأمر بالنسبة لشركة Cartesia، التي كانت رائدة في بعض صواريخ SSM الأولى والتي تحمل الاسم نفسه لـ Codestral Mamba، Mamba وMamba-2.
إذا نجحت هذه الجهود، فقد تجعل الذكاء الاصطناعي التوليدي أكثر سهولة وانتشارًا مما هو عليه الآن – للأفضل أو للأسوأ.