شركة الذكاء الاصطناعي الناشئة Anthropic متهمة بـ "التنقيب الفظيع" عن البيانات

احصل على ملخص المحرر مجانًا

اتُهمت شركة الذكاء الاصطناعي الناشئة Anthropic بجمع البيانات بشكل عدواني من مواقع الويب لتدريب أنظمتها، مما قد ينتهك شروط خدمة الناشرين في هذه العملية، وفقًا للمتضررين.

ويعتمد مطورو الذكاء الاصطناعي على استيعاب كميات هائلة من البيانات المستمدة من مجموعة واسعة من المصادر لإنشاء نماذج لغوية كبيرة، وهي التكنولوجيا التي تقف وراء برامج الدردشة الآلية مثل ChatGPT من OpenAI ومنافس Anthropic، Claude.

تأسست شركة Anthropic على يد مجموعة من الباحثين السابقين في OpenAI على وعد بتطوير أنظمة الذكاء الاصطناعي “المسؤولة”.

ومع ذلك، اتهم مات باري، الرئيس التنفيذي لشركة Freelancer.com، الشركة التي يقع مقرها في سان فرانسيسكو بأنها “أكثر شركة استخراج بيانات عدوانية على الإطلاق” لبوابته الخاصة بالعاملين المستقلين، والتي تحظى بملايين الزيارات اليومية.

وقد ردد ناشرون آخرون على شبكة الإنترنت مخاوف باري من أن Anthropic تغزو مواقعهم وتتجاهل تعليماتهم بالتوقف عن جمع المحتوى الخاص بهم لتدريب نماذجها.

وفقًا للبيانات التي تمت مشاركتها مع صحيفة فاينانشال تايمز، تلقى موقع Freelancer.com 3.5 مليون زيارة من “متتبع” ويب مرتبط بـ Anthropic في غضون أربع ساعات. وقال باري إن هذا يجعل Anthropic “ربما حوالي خمسة أضعاف حجم برنامج التتبع بالذكاء الاصطناعي الثاني”.

وأضاف أن الزيارات من الروبوت الخاص به استمرت في الارتفاع حتى بعد أن حاول موقع Freelancer.com رفض طلبات الوصول الخاصة به، باستخدام بروتوكولات الويب القياسية لتوجيه برامج الزحف. وبعد ذلك، قرر باري حظر حركة المرور من عناوين الإنترنت الخاصة بـ Anthropic تمامًا.

وقال باري “لقد اضطررنا إلى حظرهم لأنهم لا يلتزمون بقواعد الإنترنت. وهذا يعد انتهاكًا صارخًا للبيانات (وهو ما) يجعل الموقع أبطأ بالنسبة لكل من يعمل عليه ويؤثر في نهاية المطاف على إيراداتنا”.

وقالت شركة أنثروبيك إنها تحقق في القضية وإنها تحترم طلبات الناشرين وتهدف إلى عدم “التطفل أو التشويش”.

إن استخراج البيانات المتاحة للعامة من مختلف أنحاء الويب أمر قانوني بشكل عام. ولكن هذه الممارسة مثيرة للجدال، وقد تنتهك شروط خدمة مواقع الويب وقد تكون مكلفة لمضيفي المواقع.

قال كايل وينز، الرئيس التنفيذي لشركة iFixit.com، إن موقعه لإصلاح الأجهزة الإلكترونية تلقى مليون زيارة من روبوتات Anthropic في غضون 24 ساعة. وأضاف: “لدينا عدد كبير من أجهزة الإنذار (بسبب حركة المرور الكثيفة)، حيث يستيقظ الناس في الساعة 3 صباحًا. وهذا يؤدي إلى تشغيل كل أجهزة الإنذار لدينا”.

قال وينز إن شروط خدمة iFixit تحظر استخدام بياناتها في التعلم الآلي. “رسالتي الأولى إلى Anthropic هي: إذا كنت تستخدم هذا لتدريب نموذجك، فهذا غير قانوني. رسالتي الثانية هي: هذا ليس سلوكًا مهذبًا على الإنترنت. الزحف هو شيء من آداب السلوك”.

تستخدم مواقع الويب بروتوكولاً يُعرف باسم “robots.txt” لمحاولة إبعاد برامج الزحف وغيرها من روبوتات الويب عن أجزاء من مواقعها. ومع ذلك، فإن هذا يعتمد على الامتثال الطوعي.

“نحن نحترم ملف robots.txt وقد احترم برنامج الزحف الخاص بنا هذه الإشارة عندما نفذها iFixit”، قالت شركة Anthropic. كما قالت الشركة إن برامج الزحف الخاصة بها تحترم “تقنيات مكافحة التحايل” مثل CAPTCHAs، وأن “برنامج الزحف الخاص بنا لا ينبغي أن يكون تدخليًا أو مزعجًا. نحن نهدف إلى الحد من الاضطراب من خلال التفكير في مدى سرعة زحفنا لنفس المجالات”.

إن جمع البيانات ليس ممارسة جديدة، ولكنها تزايدت بشكل كبير في العامين الماضيين نتيجة لسباق التسلح بالذكاء الاصطناعي. وقد فرض هذا تكاليف جديدة على مواقع الويب.

كتب إريك هولشر، المؤسس المشارك لموقع استضافة المستندات Read the Docs، في منشور على مدونته يوم الخميس: “كلفتنا أدوات الزحف التي تعمل بالذكاء الاصطناعي مبلغًا كبيرًا من المال في رسوم النطاق الترددي، وتسببت في إهدار قدر كبير من الوقت في التعامل مع الانتهاكات”. وأضاف: “تتصرف أدوات الزحف التي تعمل بالذكاء الاصطناعي بطريقة لا تحترم المواقع التي تزحف إليها، وهذا من شأنه أن يتسبب في رد فعل عنيف ضد أدوات الزحف التي تعمل بالذكاء الاصطناعي بشكل عام”.

لقد ابتكرت شركة Anthropic بعضًا من أكثر برامج المحادثة الروبوتية تقدمًا في العالم – والتي تنافس برنامج ChatGPT التابع لشركة OpenAI – والتي يمكنها الاستجابة لمجموعة من المطالبات باللغة الطبيعية، في حين تضع نفسها كجهة فاعلة أكثر أخلاقية من بعض المنافسين. الغرض المعلن لشركة Anthropic هو “التطوير والصيانة المسؤولة للذكاء الاصطناعي المتقدم لصالح البشرية على المدى الطويل”.

مع تنافس شركات الذكاء الاصطناعي الرائدة على إنشاء نماذج أكثر قدرة ومهارة، فإنها تتوغل بشكل أعمق في زوايا غير مستغلة من الويب، حيث تتعاون مع الناشرين أو تخلق بيانات تدريب اصطناعية.

أبرمت شركة OpenAI عددًا من الصفقات في الأشهر الأخيرة مع الناشرين ومقدمي المحتوى بما في ذلك Reddit وThe Atlantic وThe Financial Times. ولم تعلن شركة Anthropic علنًا عن شراكات مماثلة.

قال باري: “لقد قامت محركات البحث دائمًا بالكثير من الكشط، لكن الأمر ارتفع إلى مستوى كامل مع تدريب الذكاء الاصطناعي التوليدي”.

قال وينز إن مهمة iFixit “هي تقديم المعلومات”، لتشجيع الناس على إصلاح أجهزتهم بأنفسهم. “نحن لا نعارض استخدامهم للمحتوى الخاص بنا لتدريب العارضات، بل نريد فقط أن نكون جزءًا من المحادثة”.

وأضاف: “أنا لست من دعاة هذا الموضوع، أنا فقط أحاول إبقاء الموقع على الإنترنت”.

تسلا ، إيلون موسك مقاضاة من قبل المساهمين على مطالبات robotaxi

ترمب يلوح برسوم 100% على الرقائق مع إعفاءات للمصنعين في أميركا

يستمر “نمط القابضة” لسوق الشحن في يوليو

أسعار النفط تواصل الانخفاض وسط ترقب لقرارات ترمب المقبلة تجاه روسيا

تضاعف سهم الذكاء الاصطناعي هذا ثلاث مرات تقريبًا في العام الماضي

صفقة ليفربول الضخمة لضم الألماني فيرتس تظهر في ميزانية “باير”

شركة الذكاء الاصطناعي الناشئة Anthropic متهمة بـ “التنقيب الفظيع” عن البيانات

المقالات ذات الصلة