ابق على اطلاع بالتحديثات المجانية

تشير دراسة بحثية جديدة إلى أن استخدام البيانات التي يتم إنشاؤها بواسطة الكمبيوتر لتدريب نماذج الذكاء الاصطناعي يحمل في طياته مخاطر التسبب في إنتاج نتائج غير منطقية، وهو ما يسلط الضوء على التحديات التي تواجه التكنولوجيا الناشئة.

وقد اختبرت شركات الذكاء الاصطناعي الرائدة، بما في ذلك OpenAI وMicrosoft، استخدام البيانات “الاصطناعية” – المعلومات التي أنشأتها أنظمة الذكاء الاصطناعي لتدريب نماذج اللغة الكبيرة (LLMs) أيضًا – حيث وصلت إلى حدود المواد التي صنعها الإنسان والتي يمكن أن تحسن التكنولوجيا المتطورة.

وتشير الأبحاث المنشورة في مجلة “نيتشر” يوم الأربعاء إلى أن استخدام مثل هذه البيانات قد يؤدي إلى تدهور سريع لنماذج الذكاء الاصطناعي. وتحولت إحدى التجارب التي استخدمت نصًا إدخاليًا صناعيًا حول العمارة في العصور الوسطى إلى مناقشة حول الأرانب البرية بعد أقل من عشرة أجيال من الإنتاج.

ويسلط هذا العمل الضوء على سبب اندفاع مطوري الذكاء الاصطناعي لشراء كميات هائلة من البيانات التي ينتجها الإنسان للتدريب – ويثير تساؤلات حول ما سيحدث بمجرد استنفاد هذه المصادر المحدودة.

قال إيليا شوميلوف، المؤلف الرئيسي للبحث: “البيانات الاصطناعية مذهلة إذا تمكنا من جعلها تعمل. ولكن ما نقوله هو أن بياناتنا الاصطناعية الحالية ربما تكون خاطئة في بعض النواحي. والأمر الأكثر إثارة للدهشة هو مدى سرعة حدوث هذه الأشياء”.

تستكشف الورقة البحثية ميل نماذج الذكاء الاصطناعي إلى الانهيار بمرور الوقت بسبب التراكم الحتمي وتضخيم الأخطاء من أجيال متعاقبة من التدريب.

وترتبط سرعة التدهور بمدى خطورة القصور في تصميم النموذج وعملية التعلم وجودة البيانات المستخدمة.

تتضمن المراحل المبكرة من الانهيار عادة “فقدان التباين”، وهو ما يعني أن أغلبية الفئات الفرعية في البيانات تصبح ممثلة بشكل مفرط على حساب المجموعات الأقلية. وفي المرحلة المتأخرة من الانهيار، قد تنحدر كل أجزاء البيانات إلى هراء.

وقال شوميلوف، الذي نفذ العمل في جامعة أكسفورد مع زملاء من كامبريدج، وإمبريال كوليدج لندن، وإدنبرة، وتورنتو: “تفقد نماذجك فائدتها لأنها غارقة في كل الأخطاء والمفاهيم الخاطئة التي قدمتها الأجيال السابقة – والنماذج نفسها”.

ووجد الباحثون أن المشاكل كانت تتفاقم في كثير من الأحيان بسبب استخدام البيانات الاصطناعية المدربة على المعلومات التي أنتجتها الأجيال السابقة. وبدأت جميع نماذج اللغة المدربة بشكل متكرر تقريبًا التي فحصوها في إنتاج عبارات متكررة.

في حالة الأرنب البري، تناول النص المدخل الأول بناء أبراج الكنائس الإنجليزية خلال القرنين الرابع عشر والخامس عشر. وفي الجيل الأول من التدريب، قدم الناتج معلومات عن الكنائس في روما وبوينس آيرس. وتطرق الجيل الخامس إلى الترجمة اللغوية، بينما أدرج الجيل التاسع حيوانات أرنبية ذات ألوان ذيل مختلفة.

ومثال آخر على ذلك هو كيف يقوم نموذج الذكاء الاصطناعي المُدرَّب على مخرجاته الخاصة بتشويه مجموعة بيانات من صور سلالات الكلاب، وفقًا لمقال مصاحب في مجلة Nature بقلم إيميلي وينجر من جامعة ديوك في الولايات المتحدة.

في البداية، كانت الأنواع الشائعة مثل المسترد الذهبي هي المهيمنة بينما اختفت سلالات أقل شيوعًا مثل الدلماسي. وفي النهاية، أصبحت صور المسترد الذهبي نفسها فوضى تشريحية، حيث كانت أجزاء الجسم في المكان الخطأ.

وقال وينجر إن التخفيف من حدة المشكلة لم يكن بالأمر السهل حتى الآن. ومن بين التقنيات التي استخدمتها بالفعل شركات التكنولوجيا الرائدة تضمين “علامة مائية” تشير إلى المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لاستبعاده من مجموعات بيانات التدريب. وتكمن الصعوبة في أن هذا يتطلب التنسيق بين شركات التكنولوجيا، وهو ما قد لا يكون عمليًا أو مجديًا تجاريًا.

قال وينجر: “إن أحد الآثار الرئيسية لانهيار النموذج هو وجود ميزة المبادرة في بناء نماذج الذكاء الاصطناعي التوليدية. فالشركات التي استمدت بيانات التدريب من الإنترنت قبل الذكاء الاصطناعي قد يكون لديها نماذج تمثل العالم الحقيقي بشكل أفضل”.

شاركها.