تسارع مجموعات التكنولوجيا إلى إعادة تصميم كيفية اختبار وتقييم نماذج الذكاء الاصطناعي الخاصة بها، حيث تتجاوز التكنولوجيا سريعة التقدم المعايير الحالية.
أعلنت كل من OpenAI وMicrosoft وMeta وAnthropic مؤخرًا عن خطط لبناء عملاء ذكاء اصطناعي يمكنهم تنفيذ المهام للبشر بشكل مستقل نيابة عنهم. وللقيام بذلك بفعالية، يجب أن تكون الأنظمة قادرة على تنفيذ إجراءات متزايدة التعقيد، باستخدام المنطق والتخطيط.
تجري الشركات “تقييمات” لنماذج الذكاء الاصطناعي من قبل فرق من الموظفين والباحثين الخارجيين. وهي عبارة عن اختبارات موحدة، تُعرف باسم المعايير المرجعية، تعمل على تقييم قدرات النماذج وأداء أنظمة المجموعات المختلفة أو الإصدارات الأقدم.
ومع ذلك، فإن التطورات الأخيرة في تكنولوجيا الذكاء الاصطناعي تعني أن العديد من أحدث النماذج تمكنت من الاقتراب من دقة 90 في المائة أو أكثر في الاختبارات الحالية، مما يسلط الضوء على الحاجة إلى معايير جديدة.
“وتيرة الصناعة سريعة للغاية. قال أحمد الدحلة، قائد الذكاء الاصطناعي التوليدي في ميتا: “لقد بدأنا الآن في تشبع قدرتنا على قياس بعض هذه الأنظمة (وكصناعة)، وأصبح تقييمها أكثر صعوبة”.
للتعامل مع هذه المشكلة، قامت العديد من مجموعات التكنولوجيا، بما في ذلك Meta وOpenAI وMicrosoft، بإنشاء معايير واختبارات داخلية خاصة بها للذكاء. لكن هذا أثار مخاوف داخل الصناعة بشأن القدرة على مقارنة التكنولوجيا في غياب الاختبارات العامة.
“تتيح لنا العديد من هذه المعايير معرفة مدى بعدنا عن أتمتة المهام والوظائف. قال دان هندريكس، المدير التنفيذي لمركز سلامة الذكاء الاصطناعي ومستشار شركة Elon Musk’s xAI: “من دون نشرها، سيكون من الصعب على الشركات والمجتمع الأوسع معرفة ذلك”.
تستخدم المعايير العامة الحالية – Hellaswag وMMLU – أسئلة متعددة الخيارات لتقييم الحس السليم والمعرفة عبر مواضيع مختلفة. ومع ذلك، يرى الباحثون أن هذه الطريقة أصبحت الآن زائدة عن الحاجة وأن النماذج تحتاج إلى مشاكل أكثر تعقيدًا.
قال مارك تشين، نائب الرئيس الأول للأبحاث في OpenAI: “لقد وصلنا إلى عصر لم تعد فيه الكثير من الاختبارات المكتوبة بواسطة الإنسان كافية كمقياس جيد لمدى قدرة النماذج”. “وهذا يخلق تحديا جديدا بالنسبة لنا كعالم بحثي.”
تم تحديث أحد المعايير العامة، SWE-bench Verified، في أغسطس لتقييم الأنظمة الذاتية بشكل أفضل بناءً على تعليقات الشركات، بما في ذلك OpenAI.
يستخدم مشاكل برمجية واقعية مصدرها منصة المطورين GitHub ويتضمن تزويد وكيل الذكاء الاصطناعي بمستودع الأكواد ومشكلة هندسية ومطالبته بإصلاحها. تتطلب المهام المنطق لإكمالها.
وفقًا لهذا المقياس، يحل أحدث نموذج من OpenAI، وهو معاينة GPT-4o، 41.4 في المائة من المشكلات، بينما يحصل Claude 3.5 Sonnet من Anthropic على 49 في المائة.
قال جاريد كابلان، كبير مسؤولي العلوم في Anthropic: “الأمر أكثر صعوبة (مع الأنظمة الوكيلة) لأنك تحتاج إلى ربط هذه الأنظمة بالكثير من الأدوات الإضافية”.
وأضاف: “عليك بشكل أساسي إنشاء بيئة رملية كاملة ليلعبوا فيها. الأمر ليس بهذه البساطة مجرد تقديم مطالبة، ورؤية ماهية الإكمال ثم تقييم ذلك”.
هناك عامل مهم آخر عند إجراء اختبارات أكثر تقدما وهو التأكد من إبقاء الأسئلة المرجعية خارج المجال العام، من أجل ضمان عدم قيام النماذج “بالغش” بشكل فعال من خلال توليد الإجابات من بيانات التدريب بدلا من حل المشكلة.
تعد القدرة على التفكير والتخطيط أمرًا بالغ الأهمية لإطلاق العنان لإمكانات وكلاء الذكاء الاصطناعي الذين يمكنهم تنفيذ المهام عبر خطوات وتطبيقات متعددة، وتصحيح أنفسهم.
قال إيسي كامار، نائب الرئيس ومدير مختبر حدود الذكاء الاصطناعي في أبحاث مايكروسوفت: “إننا نكتشف طرقًا جديدة لقياس هذه الأنظمة وبالطبع أحد هذه الطرق هو التفكير، وهو مجال مهم”.
ونتيجة لذلك، تعمل ميكروسوفت على معيارها الداخلي الخاص، والذي يتضمن مشاكل لم تظهر من قبل في التدريب لتقييم ما إذا كانت نماذج الذكاء الاصطناعي لديها قادرة على التفكير كما يفعل الإنسان.
تساءل البعض، بما في ذلك باحثون من شركة Apple، عما إذا كانت نماذج اللغات الكبيرة الحالية “تستدل” أو “تطابق الأنماط” تمامًا مع أقرب البيانات المماثلة التي شوهدت في تدريباتهم.
وقال روشير بوري، كبير العلماء في شركة آي بي إم للأبحاث: “في المجالات الأضيق التي تهتم بها الشركات، فإنها تقوم بالتفكير”. “(النقاش يدور حول) هذا المفهوم الأوسع للاستدلال على المستوى البشري، والذي من شأنه أن يضعه تقريبًا في سياق الذكاء العام الاصطناعي. هل يعقلون حقًا أم أنهم يرددون؟”
يقيس OpenAI التفكير بشكل أساسي من خلال التقييمات التي تغطي الرياضيات وموضوعات العلوم والتكنولوجيا والهندسة والرياضيات ومهام البرمجة.
“الاستدلال هو مصطلح عظيم جدا. كل شخص يعرفه بشكل مختلف وله تفسيره الخاص. . . قال تشين من OpenAI: “هذه الحدود غامضة للغاية (ونحن) نحاول ألا نتورط كثيرًا في هذا التمييز نفسه، ولكن ننظر إلى ما إذا كان يقود المنفعة أو الأداء أو القدرات”.
كما أدت الحاجة إلى معايير جديدة إلى جهود المنظمات الخارجية.
في شهر سبتمبر، أعلنت شركة Scale AI وشركة Hendrycks الناشئة عن مشروع يسمى “الاختبار الأخير للإنسانية”، والذي يجمع أسئلة معقدة من خبراء من مختلف التخصصات، والتي تتطلب إكمالها تفكيرًا مجردًا.
مثال آخر هو FrontierMath، وهو معيار جديد تم إصداره هذا الأسبوع، أنشأه علماء رياضيات خبراء. واستنادًا إلى هذا الاختبار، تستطيع النماذج الأكثر تقدمًا الإجابة على أقل من 2 بالمائة من الأسئلة.
ومع ذلك، بدون اتفاق صريح على قياس هذه القدرات، يحذر الخبراء من أنه قد يكون من الصعب على الشركات تقييم منافسيها أو على الشركات والمستهلكين فهم السوق.
“لا توجد طريقة واضحة للقول إن هذا النموذج أفضل بالتأكيد من هذا النموذج” (لأنه) عندما يصبح المقياس هدفًا، فإنه يتوقف عن أن يكون مقياسًا جيدًا” ويتم تدريب النماذج على اجتياز المعايير المحددة، كما قال ميتا آل. داهل.
“إنه شيء نعمل، كصناعة بأكملها، على تحقيقه.”
تقارير إضافية من هانا ميرفي في سان فرانسيسكو