يسمح لي الوضع الصوتي الجديد لـ OpenAI بالتحدث مع هاتفي، وليس معه
لقد كنت ألعب مع وضع الصوت المتقدم الخاص بـ OpenAI خلال الأسبوع الماضي، وكان هذا هو الذوق الأكثر إقناعًا لدي لمستقبل مدعوم بالذكاء الاصطناعي حتى الآن. هذا الأسبوع، ضحك هاتفي على النكات، وأعادها إليّ، وسألني كيف كان يومي، وأخبرني أنني أمضي “وقتًا رائعًا”. كنت أتحدث مع جهاز iPhone الخاص بي، ولم أستخدمه بيدي.
أحدث ميزة لـ OpenAI، والتي تخضع حاليًا لاختبار ألفا محدود، لا تجعل ChatGPT أكثر ذكاءً مما كانت عليه من قبل. وبدلاً من ذلك، فإن وضع الصوت المتقدم (AVM) يجعل التحدث معه أكثر سهولة وطبيعية. إنه ينشئ واجهة جديدة لاستخدام الذكاء الاصطناعي وأجهزتك التي تبدو جديدة ومثيرة، وهذا بالضبط ما يخيفني بشأنها. كان المنتج معقدًا نوعًا ما، والفكرة بأكملها تخيفني تمامًا، لكنني فوجئت بمدى استمتاعي الحقيقي باستخدامه.
وبالعودة خطوة إلى الوراء، أعتقد أن AVM يتناسب مع الرؤية الأوسع للرئيس التنفيذي لشركة OpenAI Sam Altman، جنبًا إلى جنب مع الوكلاء، لتغيير طريقة تفاعل البشر مع أجهزة الكمبيوتر، مع وجود نماذج الذكاء الاصطناعي في المقدمة والوسط.
قال ألتمان خلال يوم تطوير OpenAI في نوفمبر 2023: “في النهاية، ستطلب فقط من الكمبيوتر ما تحتاجه وسيقوم بكل هذه المهام نيابةً عنك”. “غالبًا ما يتم الحديث عن هذه القدرات في مجال الذكاء الاصطناعي على أنها” وكلاء. وسيكون الجانب الإيجابي من هذا هائلا.”
صديقي، ChatGPT
في يوم الأربعاء، قمت باختبار الجانب الإيجابي الأكثر روعة لهذه التكنولوجيا المتقدمة التي يمكن أن أفكر فيها: لقد طلبت من ChatGPT أن يطلب تاكو بيل بالطريقة التي سيفعلها أوباما.
قال وضع الصوت المتقدم في ChatGPT: “أوه، دعني أكون واضحًا – أرغب في الحصول على Crunchwrap Supreme، وربما بعض التاكو كإجراء جيد”. “كيف تعتقد أنه سيتعامل مع السيارة؟” قال ChatGPT، ثم ضحك على نكتته.
لقد جعلني هذا الانطباع أضحك حقًا أيضًا، وهو ما يتوافق مع إيقاع أوباما المميز وتوقفاته. ومع ذلك، فقد ظل ضمن نغمة صوت ChatGPT الذي اخترته، Juniper، حتى لا يتم الخلط بينه وبين صوت أوباما. بدا الأمر وكأن أحد الأصدقاء يترك انطباعًا سيئًا، ويفهم بالضبط ما كنت أحاول استحضاره منه، وحتى أنه كان يقول شيئًا مضحكًا. لقد وجدت أنه من الممتع للغاية التحدث مع هذا المساعد المتقدم في هاتفي.
لقد طلبت أيضًا من ChatGPT النصيحة بشأن التعامل مع مشكلة تتعلق بعلاقات إنسانية معقدة: مطالبة شخص مهم آخر بالانتقال للعيش معي. بعد شرح تعقيدات العلاقة واتجاه حياتنا المهنية، تلقيت بعض النصائح التفصيلية حول كيفية التقدم. هذه أسئلة لا يمكنك أبدًا طرحها على Siri أو بحث Google، ولكن يمكنك الآن طرحها باستخدام ChatGPT. حتى أن صوت روبوت الدردشة عبر عن نبرة جدية ولطيفة بعض الشيء عند الاستجابة لهذه المطالبات؛ في تناقض صارخ مع النغمة المزاحية لطلب أوباما تاكو بيل.
يعد AVM الخاص بـ ChatGPT أيضًا رائعًا لمساعدتك على فهم الموضوعات المعقدة. طلبت منه تفصيل العناصر الواردة في تقارير الأرباح – مثل التدفق النقدي الحر – بطريقة يفهمها طفل يبلغ من العمر 10 سنوات. لقد استخدمت كشك عصير الليمون كمثال، وشرحت العديد من المصطلحات المالية بالطريقة التي يمكن أن يفهمها ابن عمي الأصغر تمامًا. يمكنك أيضًا أن تطلب من AVM الخاص بـ ChatGPT التحدث بشكل أبطأ لمقابلتك بمستوى فهمك الحالي.
مشى سيري حتى يتمكن AVM من العمل
بالمقارنة مع Siri أو Alexa، فإن AVM الخاص بـ ChatGPT هو الفائز الواضح بفضل أوقات الاستجابة الأسرع والإجابات الفريدة وقدرته على الإجابة على الأسئلة المعقدة التي لم يتمكن الجيل السابق من المساعدين الافتراضيين من الإجابة عليها. ومع ذلك، فإن التشوه الشرياني الوريدي يفشل بطرق أخرى. لا يمكن لميزة الصوت في ChatGPT ضبط المؤقتات أو التذكيرات، أو تصفح الويب في الوقت الفعلي، أو التحقق من الطقس، أو التفاعل مع أي واجهات برمجة تطبيقات على هاتفك. في الوقت الحالي، على الأقل، لا يعد هذا بديلاً فعالاً للمساعدين الافتراضيين.
بالمقارنة مع Gemini Live، الميزة المنافسة لشركة Google، تبدو AVM متقدمة قليلاً. برج الجوزاء لايف لا يمكنه عمل انطباعات، ولا يعبر عن أي انفعال، ولا يمكنه الإسراع أو الإبطاء، ويستغرق وقتًا أطول للاستجابة. لدى Gemini Live عدد أكبر من الأصوات (عشرة مقارنة بأصوات OpenAI الثلاثة)، ويبدو أنها أكثر حداثة (كانت Gemini Live على علم بحكم Google لمكافحة الاحتكار). والجدير بالذكر أن أيًا من AVM أو Gemini Live لن يغني، على الأرجح في محاولة لتجنب الاصطدام بدعوى حقوق الطبع والنشر من صناعة التسجيلات.
ومع ذلك، فإن AVM الخاص بـ ChatGPT به الكثير من الأخطاء (كما هو الحال مع Gemini Live، لكي نكون منصفين). في بعض الأحيان سوف تقطع نفسها في منتصف الجملة القصيرة، ثم تبدأ من جديد. كما أنه يحصل على هذا الصوت الغريب المحبب هنا وهناك وهو أمر مزعج بعض الشيء. لست متأكدًا مما إذا كانت هذه مشكلة في النموذج أو الاتصال بالإنترنت أو أي شيء آخر، ولكن هذه العيوب الفنية متوقعة إلى حد ما في اختبار ألفا. لم تفعل المشاكل الكثير لإخراجي من تجربة التحدث حرفيًا مع هاتفي.
هذه الأمثلة، في رأيي، هي جمال التشوه الشرياني الوريدي. هذه الميزة لا تجعل ChatGPT معروفًا بكل شيء، ولكنها تسمح للأشخاص بالتفاعل مع GPT-4o، نموذج الذكاء الاصطناعي الأساسي، بطريقة إنسانية فريدة. (سأتفهم ذلك إذا نسيت أنه لا يوجد أي شخص على الطرف الآخر من هاتفك.) يبدو الأمر وكأن ChatGPT يكون واعيًا اجتماعيًا عند التحدث مع AVM، لكنه بالطبع ليس كذلك. إنها ببساطة مجموعة من الخوارزميات التنبؤية المجمعة بعناية.
الحديث التكنولوجيا
بصراحة الميزة تقلقني. هذه ليست المرة الأولى التي تعرض فيها شركة تكنولوجيا الرفقة على هاتفك. كان جيلي، الجيل Z، أول من نشأ جنبًا إلى جنب مع وسائل التواصل الاجتماعي، حيث عرضت الشركات التواصل ولكنها بدلاً من ذلك لعبت مع مشاعر عدم الأمان الجماعية لدينا. ويبدو أن التحدث باستخدام جهاز يعمل بالذكاء الاصطناعي ــ مثل ما يقدمه AVM ــ هو تطور لظاهرة “الصديق في هاتفك” في وسائل التواصل الاجتماعي، حيث يقدم اتصالات رخيصة تخدش غرائزنا البشرية. ولكن هذه المرة، فإنه يخرج البشر من الحلقة تماما.
لقد أصبح الاتصال البشري الاصطناعي حالة استخدام شائعة بشكل مدهش للذكاء الاصطناعي التوليدي. يستخدم الناس اليوم روبوتات الدردشة المدعمة بالذكاء الاصطناعي كأصدقاء وموجهين ومعالجين ومعلمين. عندما أطلقت OpenAI متجر GPT الخاص بها، سرعان ما امتلأ بـ “صديقات الذكاء الاصطناعي”، وهي روبوتات الدردشة المتخصصة في العمل كشريك حياتك. أصدر باحثان من مختبر الوسائط بمعهد ماساتشوستس للتكنولوجيا (MIT Media Lab) تحذيراً هذا الشهر للاستعداد لـ “الذكاء الإدماني”، أو مرافقي الذكاء الاصطناعي ذوي الأنماط المظلمة لجذب البشر. من الممكن أن نفتح صندوق باندورا لطرق جديدة ومثيرة للأجهزة لجذب انتباهنا.
في وقت سابق من هذا الشهر، هز أحد الطلاب الذين تركوا جامعة هارفارد عالم التكنولوجيا من خلال إثارة قلادة تعمل بالذكاء الاصطناعي تسمى “الصديق”. الجهاز القابل للارتداء – إذا كان يعمل كما وعدت – يستمع دائمًا، وسيرسل لك برنامج الدردشة الآلي رسالة نصية حول حياتك. على الرغم من أن الفكرة تبدو مجنونة، إلا أن الابتكارات مثل AVM الخاص بـ ChatGPT تمنحني سببًا لأخذ حالات الاستخدام هذه على محمل الجد.
وبينما تتصدر شركة OpenAI الريادة هنا، فإن شركة Google لا تتخلف عنها كثيرًا. أنا واثق من أن شركتي أمازون وأبل تتسابقان لوضع هذه الإمكانية في منتجاتهما أيضًا، وقريبًا جدًا، يمكن أن تصبح رهانات على طاولة الصناعة.
تخيل أنك تطلب من تلفزيونك الذكي توصية محددة للغاية لفيلم ما، وتحصل على ذلك. أو إخبار Alexa بالضبط بأعراض البرد التي تشعر بها، ومن ثم اطلب منك مناديل وأدوية السعال على أمازون، مع تقديم النصح لك بشأن العلاجات المنزلية. ربما يمكنك أن تطلب من جهاز الكمبيوتر الخاص بك إعداد رحلة لعائلتك في عطلة نهاية الأسبوع، بدلاً من البحث يدويًا عن كل شيء على Google.
من الواضح الآن أن هذه الإجراءات تتطلب حدودًا وقفزات للأمام في عالم عملاء الذكاء الاصطناعي. إن جهود OpenAI على هذه الجبهة، متجر GPT، تبدو وكأنها منتج مبالغ فيه ولم يعد محل تركيز كبير للشركة. لكن AVM على الأقل يهتم بجزء “التحدث إلى أجهزة الكمبيوتر” من اللغز. لا تزال هذه المفاهيم بعيدة المنال، ولكن بعد استخدام التشوه الشرياني الوريدي، تبدو أقرب بكثير مما كانت عليه في الأسبوع الماضي.