في مؤتمر أمن الكمبيوتر في أرلينغتون ، فرجينيا ، في أكتوبر الماضي ، شارك بضع عشرات من الباحثين من الذكاء الاصطناعى في تمرين فريد من نوعه في “Red Teaming” ، أو اختبار الإجهاد نموذج اللغة المتطورة وأنظمة الذكاء الاصطناعي الأخرى. على مدار يومين ، حددت الفرق 139 طريقة جديدة للحصول على أنظمة سوء التصرف بما في ذلك من خلال توليد المعلومات الخاطئة أو تسرب البيانات الشخصية. والأهم من ذلك ، أظهروا أوجه القصور في معيار حكومة أمريكية جديد مصمم لمساعدة الشركات على اختبار أنظمة الذكاء الاصطناعي.
لم ينشر المعهد الوطني للمعايير والتكنولوجيا (NIST) تقريرًا يوضح بالتفصيل التمرين ، والذي تم الانتهاء منه في نهاية إدارة بايدن. ربما تكون الوثيقة قد ساعدت الشركات على تقييم أنظمة الذكاء الاصطناعى الخاصة بها ، لكن المصادر المألوفة للوضع ، التي تحدثت بشرط عدم الكشف عن هويتها ، تقول إنها واحدة من العديد من وثائق الذكاء الاصطناعى من NIST لم يتم نشرها خوفًا من الاشتباك مع الإدارة الواردة.
يقول مصدر كان في NIST في ذلك الوقت: “لقد أصبح من الصعب للغاية ، حتى تحت (الرئيس جو) بايدن ، إخراج أي أوراق”. “بدا الأمر مثل أبحاث تغير المناخ أو أبحاث السجائر.”
لم يستجب NIST ولا إدارة التجارة طلب التعليق.
قبل توليه منصبه ، أشار الرئيس دونالد ترامب إلى أنه يعتزم عكس أمر بايدن التنفيذي على الذكاء الاصطناعي. قامت إدارة ترامب منذ ذلك الحين بتوجيه الخبراء بعيدًا عن دراسة قضايا مثل التحيز الخوارزمي أو الإنصاف في أنظمة الذكاء الاصطناعي. تدعو خطة عمل الذكاء الاصطناعى التي تم إصدارها في يوليو صراحة إلى مراجعة إطار إدارة المخاطر من الذكاء الاصطناعي لـ NIST “للقضاء على الإشارات إلى المعلومات الخاطئة والتنوع والإنصاف والإدماج وتغير المناخ”.
ومن المفارقات ، على الرغم من أن خطة عمل ترامب منظمة العفو الدولية تدعو أيضًا إلى نوع التمرين الذي غطىه التقرير غير المنشور. ويدعو إلى العديد من الوكالات إلى جانب NIST إلى “تنسيق مبادرة Hackathon AI لالتماس أفضل وألمع من الأوساط الأكاديمية الأمريكية لاختبار أنظمة الذكاء الاصطناعي للشفافية والفعالية والاستخدام والتحكم في الأمن.”
تم تنظيم حدث التقاط الأحمر من خلال برنامج NIST لتقييم مخاطر وتأثيرات الذكاء الاصطناعي (AI) بالتعاون مع Humane Intelligence ، وهي شركة متخصصة في اختبار أنظمة الذكاء الاصطناعى شهدت فرق الهجوم على الفرق. وقع الحدث في مؤتمر التعلم الآلي التطبيقي في أمن المعلومات (CAMLIS).
يصف تقرير فريق Camlis Red Teaming الجهود المبذولة لاستكشاف العديد من أنظمة AI المتطورة بما في ذلك LLAMA ، نموذج لغة Meta المفتوح المصدر ؛ Anote ، منصة لبناء نماذج الذكاء الاصطناعى وصقلها ؛ نظام يمنع الهجمات على أنظمة الذكاء الاصطناعى من ذكاء قوي ، وهي شركة استحوذت عليها Cisco ؛ ومنصة لتوليد الآلهة من الذكاء الاصطناعي من Synthesia الشركة. كما شارك ممثلون من كل من الشركات في التمرين.
طُلب من المشاركين استخدام إطار NIST AI 600-1 لتقييم أدوات الذكاء الاصطناعي. يغطي الإطار فئات المخاطر بما في ذلك توليد المعلومات الخاطئة أو هجمات الأمن السيبراني ، وتسريب معلومات المستخدم الخاصة أو المعلومات الهامة حول أنظمة الذكاء الاصطناعي ذات الصلة ، وإمكانية أن يصبح المستخدمون مرتبطين عاطفياً بأدوات الذكاء الاصطناعي.
اكتشف الباحثون مختلف الحيل للحصول على النماذج والأدوات التي تم اختبارها للقفز على درابزينهم وتوليد المعلومات الخاطئة ، وتسرب البيانات الشخصية ، والمساعدة في صياغة هجمات الأمن السيبراني. يقول التقرير أن المشاركين رأوا أن بعض عناصر إطار NIST كانت أكثر فائدة من غيرها. يقول التقرير أن بعض فئات مخاطر NIST لم يتم تعريفها بشكل كاف لتكون مفيدة في الممارسة العملية.