أعلنت الأنثروبور اثنين نماذج جديدة ، Claude 4 Opus و Claude Sonnet 4 ، خلال مؤتمر المطور الأول في سان فرانسيسكو يوم الخميس. سيكون الزوج متاحًا على الفور لدفع مشتركي كلود.

وتقول الشركة إن النماذج الجديدة ، التي تقفز اتفاقية التسمية من 3.7 مباشرة إلى 4 ، لها عدد من نقاط القوة ، بما في ذلك قدرتها على التفكير والتخطيط وتذكر سياق المحادثات خلال فترات طويلة من الزمن. Claude 4 Opus هو أيضًا أفضل في لعب Pokémon من سابقتها.

يقول مايك كريجر ، كبير مسؤولي المنتجات في الإنسان في مقابلة مع Wired: “لقد تمكنت من العمل في بوكيمون لمدة 24 ساعة”. في السابق ، كان الأطول الذي يمكن أن يلعبه النموذج هو 45 دقيقة فقط ، كما أضاف متحدث باسم الشركة.

قبل بضعة أشهر ، أطلقت الأنثروبور تيار نشل يسمى “كلود مسرحيات بوكيمون” الذي يعرض قدرات كلود 3.7 Sonnet في Pokémon Red Live. يهدف العرض التوضيحي إلى إظهار مدى قدرة كلود على تحليل اللعبة واتخاذ القرارات خطوة بخطوة ، مع الحد الأدنى من الاتجاه.

الصدارة وراء بحث بوكيمون هو ديفيد هيرشي ، وهو عضو في الموظفين التقنيين في الأنثروبور. في مقابلة مع Wired ، يقول هيرشي إنه اختار Pokémon Red لأنه “ملعب بسيط” ، مما يعني أن اللعبة قائمة على الدوران ولا تتطلب ردود فعل في الوقت الحقيقي ، والتي تكافح النماذج الحالية للأنثروبور. كانت أيضًا أول لعبة فيديو لعبها على الإطلاق ، في لعبة Game Boy الأصلية ، بعد الحصول عليها لعيد الميلاد في عام 1997. “إنها لها مكان خاص في قلبي” ، كما يقول هيرشي.

كان هدف هيرشي الشامل في هذا البحث هو دراسة كيفية استخدام كلود كعامل – العمل بشكل مستقل للقيام بمهام معقدة نيابة عن المستخدم. على الرغم من أنه من غير الواضح ما هو المعرفة السابقة التي لدى كلود حول Pokémon من بيانات التدريب الخاصة بها ، إلا أن موجه نظامه هو الحد الأدنى حسب التصميم: أنت كلود ، أنت تلعب بوكيمون ، وهنا الأدوات التي لديك ، ويمكنك الضغط على الأزرار على الشاشة.

يقول هيرشي: “بمرور الوقت ، كنت أعود وحذف جميع الأشياء الخاصة بوكيمون التي يمكنني فقط لأنني أعتقد أنه من المثير للاهتمام حقًا معرفة مقدار ما يمكن أن يكتشفه النموذج من تلقاء نفسه” ، مضيفًا أنه يأمل في بناء لعبة لم يسبق لها مثيل من قبل من أجل اختبار حدوده حقًا.

عندما لعب كلود 3.7 Sonnet اللعبة ، واجهت بعض التحديات: لقد أمضت “عشرات الساعات” عالقة في مدينة واحدة وتواجه مشكلة في تحديد شخصيات غير لاعبين ، مما أدى إلى توقف تقدمه بشكل كبير في اللعبة. مع Claude 4 Opus ، لاحظ هيرشي تحسنًا في قدرات كلود على المدى الطويل وقدرات التخطيط عندما شاهدها وهي تتنقل في مسعى بوكيمون معقد. بعد إدراك أنها تحتاج إلى قوة معينة للمضي قدمًا ، أمضت الذكاء الاصطناعى يومين في تحسين مهاراتها قبل الاستمرار في اللعب. يعتقد هيرشي أن هذا النوع من التفكير متعدد الخطوات ، مع عدم وجود ردود فعل فورية ، يظهر مستوى جديد من التماسك ، مما يعني أن النموذج لديه قدرة أفضل على المسار الصحيح.

يقول هيرشي: “هذه واحدة من طرقي المفضلة للتعرف على نموذج. مثل ، هكذا أفهم ما هي نقاط قوته ، وما هي نقاط ضعفها”. “إنها طريقتي للوصول إلى هذا النموذج الجديد الذي نحن على وشك طرحه ، وكيفية العمل معه.”

الجميع يريد وكيل

يعد Research Pokémon الخاص بشهر الأنثروبور بمثابة نهج جديد لمعالجة مشكلة موجودة مسبقًا – كيف نفهم القرارات التي تتخذها الذكاء الاصطناعى عند الاقتراب من المهام المعقدة ، ويدفعها في الاتجاه الصحيح؟

إن الإجابة على هذا السؤال جزء لا يتجزأ من تقدم وكلاء الذكاء الاصطناعى في الصناعة-AAI التي يمكنها معالجة المهام المعقدة مع الاستقلال النسبي. في بوكيمون ، من المهم ألا يفقد النموذج السياق أو “نسيان” المهمة المطروحة. ينطبق ذلك أيضًا على وكلاء الذكاء الاصطناعى الذين طلبوا أتمتة سير العمل – حتى يستغرق مئات الساعات.

شاركها.