تتهم وسائل الإعلام شركة Perplexity بالسرقة الأدبية والتجريف غير الأخلاقي للويب
في عصر الذكاء الاصطناعي التوليدي، عندما تتمكن روبوتات الدردشة من تقديم إجابات مفصلة على الأسئلة بناءً على محتوى مأخوذ من الإنترنت، فإن الخط الفاصل بين الاستخدام العادل والانتحال، وبين التجريد الروتيني من الويب والتلخيص غير الأخلاقي، يصبح خطًا رفيعًا.
Perplexity AI هي شركة ناشئة تجمع بين محرك بحث ونموذج لغة كبير يولد إجابات بإجابات مفصلة، بدلاً من مجرد روابط. على عكس ChatGPT من OpenAI وAnthropic’s Claude، لا تقوم Perplexity بتدريب نماذج الذكاء الاصطناعي الأساسية الخاصة بها، وبدلاً من ذلك تستخدم نماذج مفتوحة أو متاحة تجاريًا لأخذ المعلومات التي تجمعها من الإنترنت وترجمتها إلى إجابات.
لكن سلسلة من الاتهامات في يونيو/حزيران تشير إلى أن النهج الذي تتبعه الشركة الناشئة يكاد يكون غير أخلاقي. انتقدت مجلة فوربس شركة Perplexity بدعوى سرقة إحدى مقالاتها الإخبارية في ميزة صفحات Perplexity التجريبية الخاصة بالشركة الناشئة. واتهمت شركة Wired شركة Perplexity بحذف موقعها الإلكتروني بشكل غير قانوني، بالإضافة إلى مواقع أخرى.
وتؤكد شركة بيربليكسيتي، التي كانت تعمل حتى أبريل/نيسان على جمع 250 مليون دولار بتقييم يقارب 3 مليارات دولار، أنها لم ترتكب أي خطأ. تقول الشركة المدعومة من Nvidia وJeff Bezos إنها احترمت طلبات الناشرين بعدم استخلاص المحتوى وأنها تعمل ضمن حدود قوانين حقوق الطبع والنشر للاستخدام العادل.
الوضع معقد. في قلبها هناك فروق دقيقة تحيط بمفهومين. الأول هو بروتوكول استبعاد الروبوتات، وهو معيار تستخدمه مواقع الويب للإشارة إلى أنها لا تريد الوصول إلى المحتوى الخاص بها أو استخدامه بواسطة برامج زحف الويب. والثاني هو الاستخدام العادل في قانون حقوق الطبع والنشر، والذي يضع الإطار القانوني للسماح باستخدام المواد المحمية بحقوق الطبع والنشر دون إذن أو دفع في ظروف معينة.
تجريف محتوى الويب خلسة
تزعم قصة Wired بتاريخ 19 يونيو أن Perplexity تجاهلت بروتوكول استبعاد الروبوتات لتتخلص خلسة من مناطق مواقع الويب التي لا يرغب الناشرون في وصول الروبوتات إليها. ذكرت مجلة Wired أنها لاحظت وجود آلة مرتبطة بـ Perplexity تقوم بذلك على موقعها الإخباري الخاص، وكذلك عبر المنشورات الأخرى التابعة لشركتها الأم، Condé Nast.
وأشار التقرير إلى أن المطور Robb Knight أجرى تجربة مماثلة وتوصل إلى نفس النتيجة.
قام كل من مراسلي Wired و Knight باختبار شكوكهم من خلال مطالبة Perplexity بتلخيص سلسلة من عناوين URL ثم المشاهدة على جانب الخادم حيث قام عنوان IP المرتبط بـ Perplexity بزيارة تلك المواقع. قامت شركة Perplexity بعد ذلك “بتلخيص” النص من عناوين URL هذه – على الرغم من أنه في حالة وجود موقع ويب وهمي ذو محتوى محدود أنشأته Wired لهذا الغرض، فقد أعاد نصًا من الصفحة حرفيًا.
هذا هو المكان الذي تلعب فيه الفروق الدقيقة في بروتوكول استبعاد الروبوتات.
تجريف الويب هو من الناحية الفنية عندما تقوم أجزاء تلقائية من البرامج المعروفة باسم برامج الزحف بمسح الويب لفهرسة المعلومات وجمعها من مواقع الويب. تقوم محركات البحث مثل Google بذلك حتى يمكن تضمين صفحات الويب في نتائج البحث. تستخدم الشركات والباحثون الآخرون برامج الزحف لجمع البيانات من الإنترنت لتحليل السوق والبحث الأكاديمي، وكما تعلمنا، لتدريب نماذج التعلم الآلي.
ستقوم أدوات استخراج بيانات الويب المتوافقة مع هذا البروتوكول أولاً بالبحث عن ملف “robots.txt” في الكود المصدري للموقع لمعرفة ما هو مسموح به وما هو غير مسموح به – اليوم، ما هو غير مسموح به عادةً هو استخراج موقع الناشر لإنشاء مجموعات بيانات تدريب ضخمة للذكاء الاصطناعي. وقد ذكرت محركات البحث وشركات الذكاء الاصطناعي، بما في ذلك شركة Perplexity، أنها تلتزم بالبروتوكول، لكنها غير ملزمة قانونًا بالقيام بذلك.
صرح ديمتري شيفيلينكو، رئيس الأعمال في شركة Perplexity، لـ TechCrunch أن تلخيص عنوان URL ليس هو نفس الشيء مثل الزحف. قال شيفيلينكو: “يتم الزحف عندما تقوم فقط بامتصاص المعلومات وإضافتها إلى الفهرس الخاص بك”. وأشار إلى أن عنوان IP الخاص بـ Perplexity قد يظهر كزائر لموقع ويب “محظور نوعًا ما من ملف robots.txt” فقط عندما يضع المستخدم عنوان URL في استعلامه، والذي “لا يلبي تعريف الزحف”.
وقال شيفيلينكو: “نحن نستجيب فقط لطلب مستخدم مباشر ومحدد للانتقال إلى عنوان URL هذا”.
بمعنى آخر، إذا قام المستخدم يدويًا بتوفير عنوان URL إلى الذكاء الاصطناعي، تقول Perplexity إن الذكاء الاصطناعي الخاص به لا يعمل كزاحف ويب ولكنه أداة لمساعدة المستخدم في استرداد ومعالجة المعلومات التي طلبها.
لكن بالنسبة إلى Wired والعديد من الناشرين الآخرين، يعد هذا تمييزًا دون أي فرق لأن زيارة عنوان URL وسحب المعلومات منه لتلخيص النص بالتأكيد تبدو تمامًا مثل عملية النسخ إذا تم ذلك آلاف المرات يوميًا.
(أفادت Wired أيضًا أن Amazon Web Services، أحد موفري الخدمات السحابية لشركة Perplexity، تحقق في بدء التشغيل لتجاهل بروتوكول robots.txt لكشط صفحات الويب التي استشهد بها المستخدمون في مطالبتهم. أخبرت AWS TechCrunch أن تقرير Wired غير دقيق وأنه أخبر الشركة كان يعالج استفسار وسائل الإعلام كما يفعل مع أي تقرير آخر يزعم إساءة استخدام الخدمة.)
سرقة أدبية أم استخدام عادل؟
كما اتهمت Wired و Forbes شركة Perplexity بالسرقة الأدبية. ومن المفارقات أن Wired تقول أن Perplexity سرقت المقالة نفسها التي دعت الشركة الناشئة إلى حذف محتوى الويب الخاص بها خلسةً.
قال مراسلو Wired إن برنامج الدردشة Perplexity “أنتج نصًا مكونًا من ست فقرات و287 كلمة يلخص بدقة استنتاجات القصة والأدلة المستخدمة للوصول إليها”. جملة واحدة تعيد إنتاج جملة من القصة الأصلية تمامًا؛ يقول Wired أن هذا يشكل سرقة أدبية. تنص إرشادات معهد بوينتر على أنه قد يكون سرقة أدبية إذا استخدم المؤلف (أو الذكاء الاصطناعي) سبع كلمات متتالية من العمل المصدر الأصلي.
كما اتهمت فوربس الحيرة بالسرقة الأدبية. نشر الموقع الإخباري تقريرًا استقصائيًا في أوائل يونيو حول كيفية قيام المشروع الجديد للرئيس التنفيذي لشركة Google، إريك شميدت، بتجنيد كثيف واختبار طائرات بدون طيار تعمل بالذكاء الاصطناعي مع تطبيقات عسكرية. في اليوم التالي، نشر محرر مجلة فوربس جون باكزكوفسكي على موقع X قائلاً إن شركة Perplexity أعادت نشر السبق الصحفي كجزء من ميزة بيتا الخاصة بها، صفحات Perplexity.
تعد صفحات Perplexity، المتوفرة فقط لبعض مشتركي Perplexity في الوقت الحالي، أداة جديدة تعد بمساعدة المستخدمين على تحويل البحث إلى “محتوى مذهل وشامل بصريًا”، وفقًا لـ Perplexity. تأتي أمثلة هذا المحتوى على الموقع من موظفي الشركة الناشئة، وتتضمن مقالات مثل “دليل المبتدئين للطبول” أو “ستيف جوبز: الرئيس التنفيذي البصير”.
كتب باكزكوفسكي: “إنها تمزق معظم تقاريرنا”. “إنه يستشهد بنا، وبالقليل من الأشخاص الذين أعادوا تدويننا، كمصادر بأكثر الطرق التي يمكن تجاهلها بسهولة.”
وذكرت مجلة فوربس أن العديد من المنشورات التي نظمها فريق بيربليكسيتي “تشبه بشكل لافت للنظر القصص الأصلية من منشورات متعددة، بما في ذلك فوربس وسي إن بي سي وبلومبرج”. وقالت فوربس إن المنشورات جمعت عشرات الآلاف من المشاهدات ولم تذكر أي من المنشورات بالاسم في نص المقال. بدلاً من ذلك، تضمنت مقالات بيربليكسيتي سمات في شكل “شعارات صغيرة يسهل تفويتها ترتبط بها”.
علاوة على ذلك، قالت فوربس إن المنشور المتعلق بشميدت يحتوي على “صياغة متطابقة تقريبًا” للسبق الصحفي الذي نشرته فوربس. تضمن التجميع أيضًا صورة أنشأها فريق التصميم في Forbes والتي يبدو أنها تم تعديلها قليلاً بواسطة Perplexity.
رد أرافيند سرينيفاس، الرئيس التنفيذي لشركة Perplexity، على مجلة Forbes في ذلك الوقت بالقول إن الشركة الناشئة ستستشهد بالمصادر بشكل أكثر بروزًا في المستقبل – وهو حل ليس مضمونًا، حيث تواجه الاستشهادات نفسها صعوبات فنية. تحتوي ChatGPT والنماذج الأخرى على روابط هلوسة، وبما أن Perplexity تستخدم نماذج OpenAI، فمن المحتمل أن تكون عرضة لمثل هذه الهلوسة. في الواقع، سلكي ذكرت أنها لاحظت الحيرة تهلوس قصصًا بأكملها.
بخلاف الإشارة إلى “الحواف الخشنة” لـ Perplexity، ضاعف Srinivas والشركة إلى حد كبير من حق Perplexity في استخدام مثل هذا المحتوى للتلخيص.
هذا هو المكان الذي تلعب فيه الفروق الدقيقة في الاستخدام العادل. السرقة الأدبية، على الرغم من كونها مستهجنة، ليست غير قانونية من الناحية الفنية.
وفقًا لمكتب حقوق الطبع والنشر الأمريكي، من القانوني استخدام أجزاء محدودة من العمل بما في ذلك الاقتباسات لأغراض مثل التعليق والنقد والتقارير الإخبارية والتقارير العلمية. تفترض شركات الذكاء الاصطناعي مثل Perplexity أن تقديم ملخص لمقالة يقع ضمن حدود الاستخدام العادل.
وقال شيفلينكو: “لا أحد يستطيع احتكار الحقائق”. “بمجرد أن تظهر الحقائق للعلن، فإنها متاحة للجميع لاستخدامها.”
شبه شيفيلينكو ملخصات بيربليكسيتي بكيفية استخدام الصحفيين في كثير من الأحيان للمعلومات من مصادر إخبارية أخرى لتعزيز تقاريرهم.
قال مارك ماكينا، أستاذ القانون في معهد UCLA للتكنولوجيا والقانون والسياسة، لـ TechCrunch، إن الوضع ليس من السهل حله. في قضية الاستخدام العادل، ستنظر المحاكم فيما إذا كان الملخص يستخدم الكثير من تعبيرات المقالة الأصلية، مقابل الأفكار فقط. وقد يقومون أيضًا بفحص ما إذا كانت قراءة الملخص قد تكون بديلاً عن قراءة المقالة.
قال ماكينا: “لا توجد خطوط مشرقة”. “لذا [Perplexity] إن قول ما يقوله المقال أو ما يفيد به بشكل واقعي قد يكون بمثابة استخدام جوانب غير محمية بحقوق الطبع والنشر من العمل. سيكون ذلك مجرد حقائق وأفكار. ولكن كلما اشتمل الملخص على تعبير ونص حقيقيين، كلما بدا وكأنه إعادة إنتاج، وليس مجرد ملخص.
لسوء الحظ بالنسبة للناشرين، ما لم تكن شركة Perplexity تستخدم التعبيرات الكاملة (وعلى ما يبدو، في بعض الحالات، فهي كذلك)، فقد لا تعتبر ملخصاتها انتهاكًا للاستخدام العادل.
كيف تهدف الحيرة إلى حماية نفسها
وقعت شركات الذكاء الاصطناعي مثل OpenAI صفقات إعلامية مع مجموعة من ناشري الأخبار للوصول إلى محتواهم الحالي والأرشيفي لتدريب خوارزمياتهم عليه. في المقابل، تعد شركة OpenAI بعرض مقالات إخبارية من هؤلاء الناشرين ردًا على استفسارات المستخدمين في ChatGPT. (ولكن حتى هذا ينطوي على بعض مكامن الخلل التي تحتاج إلى حل، كما أفاد مختبر نيمان الأسبوع الماضي).
لقد أحجمت شركة بيربلكستي عن الإعلان عن سلسلة صفقاتها الإعلامية، ربما في انتظار زوال الاتهامات الموجهة إليها. لكن الشركة “تتقدم بأقصى سرعة” في سلسلة من صفقات تقاسم عائدات الإعلانات مع الناشرين.
الفكرة هي أن Perplexity ستبدأ في تضمين الإعلانات جنبًا إلى جنب مع استجابات الاستعلام، وسيحصل الناشرون الذين لديهم محتوى مستشهد به في أي إجابة على شريحة من عائدات الإعلانات المقابلة. وقال شيفيلينكو إن Perplexity تعمل أيضًا على السماح للناشرين بالوصول إلى تقنيتها حتى يتمكنوا من بناء تجارب الأسئلة والأجوبة وتعزيز الأشياء مثل الأسئلة ذات الصلة محليًا داخل مواقعهم ومنتجاتهم.
ولكن هل هذه مجرد ورقة توت لسرقة الملكية الفكرية بشكل نظامي؟ الحيرة ليست برنامج الدردشة الآلي الوحيد الذي يهدد بتلخيص المحتوى بشكل كامل بحيث يفشل القراء في رؤية الحاجة إلى النقر للوصول إلى المادة المصدر الأصلية.
وإذا استمرت أدوات استخراج الذكاء الاصطناعي مثل هذه في أخذ عمل الناشرين وإعادة توظيفه لصالح أعمالهم الخاصة، فسيواجه الناشرون صعوبة أكبر في كسب دولارات الإعلانات. وهذا يعني في النهاية أنه سيكون هناك محتوى أقل يمكن التخلص منه. عندما لا يتبقى أي محتوى للاستخلاص، ستركز أنظمة الذكاء الاصطناعي التوليدية بعد ذلك على التدريب على البيانات الاصطناعية، مما قد يؤدي إلى حلقة ردود فعل جهنمية من المحتوى المتحيز وغير الدقيق.
اكتشاف المزيد من موقع خبرة التقني
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.