قد يرغب المسؤولون التنفيذيون في شركات الذكاء الاصطناعي في إخبارنا بأن AGI موجود هنا تقريبًا ، لكن أحدث النماذج لا تزال بحاجة إلى بعض الدروس الإضافية لمساعدتهم على أن يكونوا ذكيًا قدر الإمكان.
قامت شركة Scale AI ، وهي شركة لعبت دورًا رئيسيًا في مساعدة شركات Frontier AI على بناء نماذج متقدمة ، وتطوير منصة يمكنها تلقائيًا اختبار نموذج عبر الآلاف من المعايير والمهام ، وتحديد نقاط الضعف ، وإبلاغ بيانات التدريب الإضافية التي يجب أن تساعد في تعزيز مهاراتهم. المقياس ، بالطبع ، سيوفر البيانات المطلوبة.
ارتفع النطاق إلى الصدارة التي توفر العمل البشري للتدريب واختبار نماذج الذكاء الاصطناعي المتقدمة. يتم تدريب نماذج اللغة الكبيرة (LLMS) على oodles من النص المكشوف من الكتب والويب ومصادر أخرى. يتطلب تحويل هذه النماذج إلى chatbots مفيدة ومتماسكة ومقدمة جيدًا “تدريبًا آخر” في شكل البشر الذين يقدمون ملاحظات على ناتج النموذج.
يزداد حجم العمال الخبراء في نماذج التحقيق للمشاكل والقيود. تعمل الأداة الجديدة ، التي تسمى تقييم المقياس ، على أتمتة بعض هذا العمل باستخدام خوارزميات التعلم الآلي الخاص بمقياس.
يقول دانييل بيريوس ، رئيس المنتج لتقييم المقياس: “داخل المختبرات الكبيرة ، هناك كل هذه الطرق العشوائية لتتبع بعض نقاط الضعف النموذجية”. الأداة الجديدة “هي وسيلة (صانعي النماذج) لتجاوز النتائج وشريحة وزيادةهم لفهم مكان عدم أداء النموذج بشكل جيد ،” ثم استخدم ذلك لاستهداف حملات البيانات للتحسين “.
يقول Berrios أن العديد من شركات طراز AI Frontier تستخدم الأداة بالفعل. يقول إن معظمهم يستخدمونه لتحسين قدرات التفكير في أفضل نماذجهم. يتضمن تفكير الذكاء الاصطناعي نموذجًا يحاول تقسيم مشكلة إلى أجزاء مكونة من أجل حلها بشكل أكثر فعالية. يعتمد النهج بشكل كبير على ما بعد التدريب من المستخدمين لتحديد ما إذا كان النموذج قد حل مشكلة بشكل صحيح.
في إحدى الحالات ، يقول Berrios ، كشف تقييم المقياس أن مهارات التفكير في النموذج سقطت عندما تم تغذية المطالبات غير الإنجليزية. يقول: “في حين أن (النموذج) ، كانت إمكانات التفكير في الأهداف العامة جيدة وأداء جيد على المعايير ، إلا أنها كانت تميل إلى التحلل قليلاً عندما لم تكن المطالبات باللغة الإنجليزية”. أبرز Scale Evolution المشكلة وسمح للشركة بجمع بيانات تدريب إضافية لمعالجتها.
يقول جوناثان فرانكل ، كبير علماء الذكاء الاصطناعى في Databricks ، وهي شركة تبني نماذج كبيرة من الذكاء الاصطناعي ، إن القدرة على اختبار نموذج الأساس ضد آخر يبدو مفيدًا من حيث المبدأ. يقول فرانك: “أي شخص يتحرك الكرة إلى الأمام في التقييم يساعدنا على بناء منظمة العفو الدولية بشكل أفضل”.
في الأشهر الأخيرة ، ساهم Scale في تطوير العديد من المعايير الجديدة المصممة لدفع نماذج الذكاء الاصطناعى لتصبح أكثر ذكاءً ، وتدقيق في كيفية تصرفها بعناية. وتشمل هذه inigmaeval و multichallenge و Mask و Exam البشرية الأخيرة.
يقول Scale إنه أصبح من الصعب قياس التحسينات في نماذج الذكاء الاصطناعى ، حيث تتحسن في الاختبارات الحالية. تقول الشركة إن أدائها الجديد تقدم صورة أكثر شمولاً من خلال الجمع بين العديد من المعايير المختلفة ويمكن استخدامها لاستخلاص اختبارات مخصصة لقدرات النموذج ، مثل التحقيق في أسبابها بلغات مختلفة. يمكن أن تأخذ AI الخاصة بـ Scale مشكلة معينة وتوليد المزيد من الأمثلة ، مما يسمح بإجراء اختبار أكثر شمولاً لمهارات النموذج.
قد تقوم الأداة الجديدة للشركة أيضًا بإبلاغ الجهود المبذولة لتوحيد نماذج اختبار الذكاء الاصطناعي لسوء السلوك. يقول بعض الباحثين أن نقص التوحيد يعني أن بعض عمليات كسر النماذج غير معلنة.
في فبراير / شباط ، أعلن المعهد الوطني للمعايير والتقنيات الأمريكية أن النطاق سيساعدها على تطوير منهجيات للاختبار نماذج لضمان آمن وجديرة بالثقة.
ما هي أنواع الأخطاء التي رصدتها في مخرجات أدوات الذكاء الاصطناعي التوليدي؟ ما رأيك هي أكبر المواقع العمياء للموديلات؟ أخبرنا عن طريق البريد الإلكتروني [email protected] أو عن طريق التعليق أدناه.