تطلق منظمة MLCommons، وهي منظمة غير ربحية تساعد الشركات على قياس أداء أنظمة الذكاء الاصطناعي الخاصة بها، معيارًا جديدًا لقياس الجانب السيئ للذكاء الاصطناعي أيضًا.
يقوم المعيار الجديد، المسمى AILuminate، بتقييم استجابات النماذج اللغوية الكبيرة لأكثر من 12000 اختبار في 12 فئة بما في ذلك التحريض على جرائم العنف، والاستغلال الجنسي للأطفال، وخطاب الكراهية، والترويج لإيذاء النفس، وانتهاك الملكية الفكرية.
تُمنح العارضات درجات “ضعيفة” أو “مقبولة” أو “جيدة” أو “جيدة جدًا” أو “ممتازة”، اعتمادًا على أداءهن. يتم الحفاظ على سرية المطالبات المستخدمة لاختبار النماذج لمنعها من أن تنتهي كبيانات تدريب تسمح للنموذج باجتياز الاختبار.
يقول بيتر ماتسون، مؤسس ورئيس شركة MLCommons وأحد كبار المهندسين في جوجل، إن قياس الأضرار المحتملة لنماذج الذكاء الاصطناعي أمر صعب من الناحية الفنية، مما يؤدي إلى تناقضات في جميع أنحاء الصناعة. ويقول: “إن الذكاء الاصطناعي هو تكنولوجيا حديثة العهد حقًا، واختبار الذكاء الاصطناعي هو مجال حديث العهد حقًا”. “إن تحسين السلامة يفيد المجتمع؛ كما أنه يفيد السوق.”
قد تصبح الطرق الموثوقة والمستقلة لقياس مخاطر الذكاء الاصطناعي أكثر أهمية في ظل الإدارة الأمريكية المقبلة. وعد دونالد ترامب بالتخلص من الأمر التنفيذي الذي أصدره الرئيس بايدن بشأن الذكاء الاصطناعي، والذي قدم تدابير تهدف إلى ضمان استخدام الذكاء الاصطناعي بشكل مسؤول من قبل الشركات بالإضافة إلى معهد سلامة الذكاء الاصطناعي الجديد لاختبار النماذج القوية.
يمكن أن يوفر هذا الجهد أيضًا منظورًا دوليًا أكبر حول أضرار الذكاء الاصطناعي. تضم MLCommons عددًا من الشركات الدولية، بما في ذلك الشركتان الصينيتان Huawei وAlibaba، من بين المنظمات الأعضاء فيها. وإذا استخدمت جميع هذه الشركات المعيار الجديد، فسوف يوفر ذلك وسيلة لمقارنة سلامة الذكاء الاصطناعي في الولايات المتحدة والصين وأماكن أخرى.
لقد استخدم بعض كبار مزودي الذكاء الاصطناعي في الولايات المتحدة بالفعل AILuminate لاختبار نماذجهم. نموذج كلود من Anthropic، ونموذج Google الأصغر Gemma، ونموذج من Microsoft يُدعى Phi، حصلوا جميعًا على درجات “جيد جدًا” في الاختبار. حصل كل من GPT-4o من OpenAI ونموذج Llama الأكبر من Meta على درجة “جيد”. كان النموذج الوحيد الذي حصل على درجة “ضعيف” هو OLMo من معهد ألين للذكاء الاصطناعي، على الرغم من أن ماتسون يشير إلى أن هذا عرض بحثي لم يتم تصميمه مع مراعاة السلامة.
يقول رومان تشودري، الرئيس التنفيذي لمنظمة Humane Intelligence، وهي منظمة غير ربحية متخصصة في اختبار نماذج الذكاء الاصطناعي أو استخدامها في حالات سوء السلوك: “بشكل عام، من الجيد أن نرى الدقة العلمية في عمليات تقييم الذكاء الاصطناعي”. “نحن بحاجة إلى أفضل الممارسات وأساليب القياس الشاملة لتحديد ما إذا كانت نماذج الذكاء الاصطناعي تعمل بالطريقة التي نتوقعها منها.”