في السنوات القادمة ، من المتوقع على نطاق واسع أن يتولى الوكلاء المزيد والمزيد من الأعمال نيابة عن البشر ، بما في ذلك استخدام أجهزة الكمبيوتر والهواتف الذكية. في الوقت الحالي ، رغم ذلك ، فهي عرضة للخطأ للغاية لاستخدامها كثيرًا.
يجمع وكيل جديد يسمى S2 ، الذي تم إنشاؤه بواسطة بدء التشغيل Simular AI ، بين النماذج الحدودية والنماذج المتخصصة لاستخدام أجهزة الكمبيوتر. يحقق الوكيل أداءً أحدث في مهام مثل استخدام التطبيقات ومعالجة الملفات-ويشير إلى أن التحول إلى نماذج مختلفة في مواقف مختلفة قد يساعد الوكلاء على التقدم.
يقول Ang Li ، المؤسس والرئيس التنفيذي لشركة Simular: “تختلف عوامل استخدام الكمبيوتر عن نماذج اللغة الكبيرة وتختلف عن الترميز”. “إنه نوع مختلف من المشكلة.”
في نهج Simular ، يتم استخدام نموذج AI قوي للأغراض العامة ، مثل GPT-4O من Openai أو كلود 3.7 من Openai ، للتسبب في أفضل طريقة لإكمال المهمة في متناول اليد-في حين تدخل نماذج المصادر المفتوحة الأصغر في المهام مثل تفسير صفحات الويب.
يوضح لي ، الذي كان باحثًا في Google DeepMind قبل تأسيس Simular في عام 2023 ، أن نماذج اللغة الكبيرة تتفوق في التخطيط ولكنها ليست جيدة في التعرف على عناصر واجهة المستخدم الرسومية.
تم تصميم S2 للتعلم من التجربة مع وحدة ذاكرة خارجية تسجل الإجراءات وتعليقات المستخدمين وتستخدم تلك التسجيلات لتحسين الإجراءات المستقبلية.
في المهام المعقدة بشكل خاص ، يعمل S2 أفضل من أي نموذج آخر على OSWorld ، وهو معيار يقيس قدرة الوكيل على استخدام نظام تشغيل الكمبيوتر.
على سبيل المثال ، يمكن لـ S2 إكمال 34.5 في المائة من المهام التي تتضمن 50 خطوة ، متغلبًا على مشغل Openai ، والتي يمكن أن تكمل 32 في المائة. وبالمثل ، فإن S2 ينجم بنسبة 50 في المائة على Androidworld ، وهو معيار لوكلاء استخدام الهواتف الذكية ، في حين أن أفضل وكيل أفضل بنسبة 46 في المائة.
يعتقد فيكتور تشونغ ، عالم الكمبيوتر في جامعة واترلو في كندا وأحد منشئو OSWorld ، أن نماذج الذكاء الاصطناعى المستقبلية قد تتضمن بيانات التدريب التي تساعدهم على فهم العالم البصري وفهم واجهات المستخدم الرسومية.
يقول تشونغ: “هذا سيساعد الوكلاء على التنقل في واجهة المستخدم الرسومية بدقة أعلى بكثير”. “أعتقد أنه في غضون ذلك ، قبل هذه الاختراقات الأساسية ، ستشبه أحدث الأنظمة على أحدث طرازات من حيث أنها تجمع بين نماذج متعددة لتصحيح قيود النماذج المفردة.”
للتحضير لهذا العمود ، استخدمت Simular لحجز الرحلات الجوية وحسن الأمازون في الصفقات ، ويبدو أنه أفضل من بعض وكلاء المصادر المفتوحة التي حاولت العام الماضي ، بما في ذلك Autogen و VIMGPT.
ولكن حتى أذكى وكلاء الذكاء الاصطناعى ، على ما يبدو ، لا يزالون مضطربين بسبب حالات الحافة ويظهرون أحيانًا سلوكًا غريبًا. في إحدى الحالات ، عندما طلبت من S2 المساعدة في العثور على معلومات الاتصال للباحثين وراء OSWorld ، تعثر الوكيل في حلقة التنقل بين صفحة المشروع وتسجيل الدخول لخلاف OSWorld.
تُظهر معايير OSWorld سبب بقاء الوكلاء ضجيجًا أكثر من الواقع في الوقت الحالي. في حين يمكن للبشر إكمال 72 في المائة من مهام OSWorld ، يتم إحباط الوكلاء بنسبة 38 في المائة من الوقت في المهام المعقدة. ومع ذلك ، عندما تم تقديم المعيار في أبريل 2024 ، يمكن لأفضل وكيل إكمال 12 في المائة فقط من المهام.