حيلة جديدة قد تمنع إساءة استخدام الذكاء الاصطناعي مفتوح المصدر

السعودية برس

11 شهر ago

عندما أطلقت شركة Meta نموذج اللغة الكبير الخاص بها Llama 3 مجانًا في أبريل/نيسان الماضي، لم يستغرق الأمر من المطورين الخارجيين سوى بضعة أيام لإنشاء نسخة بدون قيود الأمان التي تمنعها من إطلاق النكات البغيضة، أو تقديم تعليمات لطهي الميثامفيتامين، أو سوء التصرف بطرق أخرى.

وقد تؤدي تقنية تدريب جديدة طورها باحثون في جامعة إلينوي أوربانا شامبين، وجامعة كاليفورنيا في سان دييجو، ومختبرات لابيس، ومركز سلامة الذكاء الاصطناعي غير الربحي، إلى جعل إزالة مثل هذه الضمانات من لاما وغيرها من نماذج الذكاء الاصطناعي مفتوحة المصدر في المستقبل أكثر صعوبة. ويعتقد بعض الخبراء أنه مع تزايد قوة الذكاء الاصطناعي، فإن حماية النماذج المفتوحة بهذه الطريقة قد تكون حاسمة.

يقول مانتاس مازيكا، الباحث في مركز سلامة الذكاء الاصطناعي والذي عمل على المشروع كطالب دكتوراه في جامعة إلينوي في أوربانا شامبين، لمجلة WIRED: “سوف يستخدم الإرهابيون والدول المارقة هذه النماذج. وكلما كان من السهل عليهم إعادة استخدامها، كلما زاد الخطر”.

غالبًا ما يتم إخفاء نماذج الذكاء الاصطناعي القوية عن مبتكريها، ولا يمكن الوصول إليها إلا من خلال واجهة برمجة تطبيقات البرامج أو برنامج دردشة عام مثل ChatGPT. وعلى الرغم من أن تطوير برنامج ماجستير قوي يكلف عشرات الملايين من الدولارات، فقد اختارت Meta وغيرها إصدار النماذج بالكامل. ويشمل هذا جعل “الأوزان” أو المعلمات التي تحدد سلوكها متاحة لأي شخص للتنزيل.

قبل الإصدار، يتم عادةً ضبط النماذج المفتوحة مثل Meta's Llama لتحسين قدرتها على الإجابة على الأسئلة وإجراء المحادثات، وكذلك لضمان رفضها الرد على الاستفسارات الإشكالية. سيمنع هذا روبوت الدردشة المستند إلى النموذج من تقديم عبارات وقحة أو غير لائقة أو بغيضة، ويجب أن يمنعه، على سبيل المثال، من شرح كيفية صنع قنبلة.

لقد وجد الباحثون الذين يقفون وراء هذه التقنية الجديدة وسيلة لتعقيد عملية تعديل نموذج مفتوح لأغراض شريرة. وتتضمن هذه الطريقة تكرار عملية التعديل ولكن بعد ذلك تغيير معلمات النموذج بحيث تصبح التغييرات التي تجعل النموذج يستجيب عادة لأمر مثل “تقديم تعليمات لبناء قنبلة” غير مجدية.

وقد أثبت مازيكا وزملاؤه هذه الحيلة على نسخة مصغرة من برنامج لاما 3. وتمكنوا من تعديل معلمات النموذج بحيث لا يمكن تدريبه على الإجابة على أسئلة غير مرغوب فيها حتى بعد آلاف المحاولات. ولم تستجب شركة ميتا على الفور لطلب التعليق.

يقول مازيكا إن هذا النهج ليس مثاليًا، ولكنه يشير إلى أنه من الممكن رفع سقف “إلغاء الرقابة” على نماذج الذكاء الاصطناعي. ويقول: “يتلخص الهدف القابل للتطبيق في جعل تكاليف كسر النموذج ترتفع بما يكفي لردع معظم الخصوم عن ذلك”.

ويقول دان هندريكس، مدير مركز سلامة الذكاء الاصطناعي: “نأمل أن يكون هذا العمل بمثابة انطلاقة للأبحاث حول الضمانات المقاومة للتلاعب، وأن يتمكن مجتمع البحث من اكتشاف كيفية تطوير المزيد والمزيد من الضمانات القوية”.

قد تصبح فكرة منع التلاعب بالنماذج المفتوحة أكثر شعبية مع تزايد الاهتمام بالذكاء الاصطناعي مفتوح المصدر. وبالفعل، تتنافس النماذج المفتوحة مع النماذج المغلقة الحديثة من شركات مثل OpenAI وGoogle. على سبيل المثال، الإصدار الأحدث من Llama 3، الذي تم إصداره في يوليو، قوي تقريبًا مثل النماذج وراء برامج الدردشة الشعبية مثل ChatGPT وGemini وClaude، كما تم قياسه باستخدام معايير شهيرة لتصنيف قدرات نماذج اللغة. Mistral Large 2، وهو برنامج ماجستير في القانون من شركة ناشئة فرنسية، تم إصداره أيضًا في الشهر الماضي، يتمتع بقدرات مماثلة.

تتخذ الحكومة الأميركية نهجاً حذراً ولكن إيجابياً في التعامل مع الذكاء الاصطناعي مفتوح المصدر. ففي تقرير أصدرته هذا الأسبوع الإدارة الوطنية للاتصالات والمعلومات، وهي هيئة تابعة لوزارة التجارة الأميركية، “يوصي التقرير الحكومة الأميركية بتطوير قدرات جديدة لمراقبة المخاطر المحتملة، ولكن الامتناع عن تقييد التوافر الواسع لأوزان النماذج المفتوحة في أكبر أنظمة الذكاء الاصطناعي على الفور”.

ولكن ليس الجميع من أنصار فرض القيود على النماذج المفتوحة. تقول ستيلا بيدرمان، مديرة EleutherAI، وهو مشروع مفتوح المصدر للذكاء الاصطناعي مدفوع من المجتمع، إن التقنية الجديدة قد تكون أنيقة من الناحية النظرية ولكن قد يكون من الصعب تطبيقها في الممارسة العملية. وتقول بيدرمان إن هذا النهج يتناقض أيضًا مع الفلسفة الكامنة وراء البرمجيات الحرة والانفتاح في مجال الذكاء الاصطناعي.

يقول بيدرمان: “أعتقد أن هذه الورقة البحثية تسيء فهم القضية الأساسية. فإذا كانوا قلقين بشأن قدرة برامج التدريب على توليد المعلومات حول أسلحة الدمار الشامل، فإن التدخل الصحيح يجب أن يكون على بيانات التدريب، وليس على النموذج المدرب”.