أخبار العالم

النظرة الأولى لـGemini Live: أفضل من التحدث إلى Siri، ولكن أسوأ مما أريد


أطلقت Google برنامج Gemini Live خلال حدث Made By Google في ماونتن فيو، كاليفورنيا، يوم الثلاثاء. تتيح لك هذه الميزة إجراء محادثة منطوقة شبه طبيعية، وليست مكتوبة، باستخدام برنامج chatbot يعمل بالذكاء الاصطناعي مدعوم بأحدث نموذج لغة كبير من Google. كان TechCrunch موجودًا لاختباره بشكل مباشر.

Gemini Live هي إجابة Google على الوضع الصوتي المتقدم لـ OpenAI، وهي ميزة مماثلة تقريبًا لـ ChatGPT موجودة في اختبار ألفا محدود. في حين أن OpenAI تغلبت على Google من خلال عرض الميزة أولاً، فإن Google هي أول من طرح الميزة النهائية.

في تجربتي، فإن هذه الميزات اللفظية ذات زمن الاستجابة المنخفض تجعل استخدام LLM يبدو أكثر طبيعية بكثير من إرسال الرسائل النصية باستخدام ChatGPT، أو حتى التحدث مع Siri أو Alexa. لقد وجدت أن Gemini Live أجاب على الأسئلة في أقل من ثانيتين، وكان قادرًا على الدوران بسرعة إلى حد ما عند مقاطعته. إن تطبيق Gemini Live ليس مثاليًا، لكنه أفضل طريقة رأيتها حتى الآن لاستخدام هاتفك بدون استخدام اليدين.

كيف يعمل

قبل التحدث مع Gemini Live، تتيح لك الميزة الاختيار من بين 10 أصوات، مقارنة بثلاثة أصوات فقط من OpenAI. عملت Google مع الممثلين الصوتيين لإنشاء كل منهم. أنا أقدر التنوع هناك، ووجدت أن كل واحد منهم يبدو إنسانيًا للغاية.

في أحد الأمثلة، طلب أحد مديري منتجات Google شفهيًا من Gemini Live العثور على مصانع نبيذ مناسبة للعائلة بالقرب من Mountain View مع وجود مناطق خارجية وملاعب قريبة، حتى يتمكن الأطفال من الحضور. هذه مهمة أكثر تعقيدًا بكثير مما أطلبه من Siri – أو بحث Google بصراحة – ولكن الجوزاء أوصت بنجاح بمكان يفي بالمعايير: Cooper-Garrod Vineyards في ساراتوجا.

ومع ذلك، فإن Gemini Live يترك شيئًا مما هو مرغوب فيه. يبدو أنه يهذي بملعب قريب يسمى ملعب مدرسة هنري الابتدائية والذي من المفترض أنه “يبعد 10 دقائق” عن مزرعة الكرم تلك. توجد ملاعب أخرى قريبة في ساراتوجا، لكن أقرب مدرسة هنري الابتدائية تقع على بعد أكثر من ساعتين بالسيارة من هناك. توجد مدرسة هنري فورد الابتدائية في مدينة ريدوود، لكنها تبعد 30 دقيقة.

أحب Google إظهار كيف يمكن للمستخدمين مقاطعة Gemini Live في منتصف الجملة، وسوف يدور الذكاء الاصطناعي بسرعة. وتقول الشركة إن هذا يسمح للمستخدمين بالتحكم في المحادثة. ومن الناحية العملية، هذه الميزة لا تعمل بشكل مثالي. في بعض الأحيان، كان مديرو مشاريع Google وGemini Live يتحدثون مع بعضهم البعض، ويبدو أن الذكاء الاصطناعي لم يلتقط ما قيل.

والجدير بالذكر أن Google لا تسمح لـ Gemini Live بالغناء أو تقليد أي أصوات خارج نطاق الأصوات العشرة التي توفرها، وفقًا لمدير المنتج Leland Rechis. من المحتمل أن تقوم الشركة بذلك لتجنب التعارض مع قانون حقوق الطبع والنشر. علاوة على ذلك، قال Rechis إن Google لا تركز على جعل Gemini Live يفهم النغمة العاطفية في صوت المستخدم – وهو ما روجت له OpenAI خلال العرض التوضيحي.

بشكل عام، تبدو هذه الميزة بمثابة طريقة رائعة للتعمق في موضوع ما بشكل أكثر طبيعية مما تفعله باستخدام بحث Google البسيط. تشير Google إلى أن Gemini Live هي خطوة على الطريق نحو Project Astra، وهو نموذج الذكاء الاصطناعي متعدد الوسائط الذي أطلقته الشركة لأول مرة خلال Google I/O. في الوقت الحالي، Gemini Live قادر فقط على إجراء المحادثات الصوتية، ومع ذلك، تريد Google في المستقبل إضافة فهم الفيديو في الوقت الفعلي.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى