حتى الأفضل عملاء الذكاء الاصطناعي يائسون إلى حد ما في العمل الحر عبر الإنترنت، وفقًا لتجربة تتحدى فكرة أن يحل الذكاء الاصطناعي محل العاملين في المكاتب بشكل جماعي.

يقيس مؤشر العمل عن بعد، وهو معيار جديد تم تطويره من قبل الباحثين في شركة شرح البيانات Scale AI ومركز سلامة الذكاء الاصطناعي (CAIS)، وهي منظمة غير ربحية، قدرة نماذج الذكاء الاصطناعي الحدودية على أتمتة العمل ذي القيمة الاقتصادية.

أعطى الباحثون العديد من وكلاء الذكاء الاصطناعي الرائدين مجموعة من محاكاة العمل المستقل، ووجدوا أنه حتى الأفضل يمكنهم أداء أقل من 3% من العمل، ويكسبون 1810 دولارًا من أصل 143991 دولارًا محتملاً. نظر الباحثون في العديد من الأدوات ووجدوا أن أكثرها قدرة هو Manus من شركة صينية ناشئة تحمل الاسم نفسه، يليه Grok من xAI، وClaude من Anthropic، وChatGPT من OpenAI، وGemini من Google.

يقول دان هندريكس، مدير CAIS: “آمل أن يعطي هذا انطباعات أكثر دقة عما يحدث فيما يتعلق بقدرات الذكاء الاصطناعي”. ويضيف أنه في حين أن بعض الوكلاء قد تحسنوا بشكل ملحوظ خلال العام الماضي أو نحو ذلك، فإن هذا لا يعني أن هذا سيستمر بنفس المعدل.

أدى التقدم المذهل في الذكاء الاصطناعي إلى تكهنات حول تجاوز الذكاء الاصطناعي للذكاء البشري قريبًا واستبداله بأعداد كبيرة من العمال. في شهر مارس، اقترح داريو أمودي، الرئيس التنفيذي لشركة Anthropic، أن 90% من أعمال البرمجة ستتم آليًا في غضون أشهر.

لقد ألهمت الموجات السابقة من الذكاء الاصطناعي تنبؤات في غير محلها بشأن الاستغناء عن الوظائف، على سبيل المثال، فيما يتعلق بالاستبدال الوشيك لأخصائيي الأشعة بخوارزميات الذكاء الاصطناعي.

قام الباحثون بإنشاء مجموعة من المهام المستقلة من خلال العاملين في Upwork الذين تم التحقق منهم. تشمل المهام مجموعة من الأعمال بما في ذلك التصميم الجرافيكي وتحرير الفيديو وتطوير الألعاب والمهام الإدارية مثل استخراج البيانات. لقد قاموا بدمج وصف لكل مهمة مع دليل الملفات اللازمة لأداء العمل ومثال لمشروع نهائي أنتجه الإنسان.

يقول هندريكس إنه على الرغم من تحسن نماذج الذكاء الاصطناعي في البرمجة والرياضيات والتفكير المنطقي في السنوات الأخيرة، إلا أنها لا تزال تكافح من أجل استخدام أدوات مختلفة وأداء مهام معقدة تتضمن خطوات عديدة. ويقول: “ليس لديهم ذاكرة تخزين طويلة المدى، ولا يمكنهم التعلم المستمر من التجارب. ولا يمكنهم اكتساب المهارات أثناء العمل مثل البشر”.

ويقدم التحليل نقطة مقابلة لمعيار العمل الاقتصادي الذي عرضته شركة OpenAI في سبتمبر/أيلول الماضي والذي يسمى “GDPval”، والذي يهدف إلى قياس العمل ذي القيمة الاقتصادية. وفقًا لـGDPval، فإن نماذج الذكاء الاصطناعي الرائدة مثل GPT-5 تقترب من القدرات البشرية في 220 مهمة عبر مجموعة من الوظائف المكتبية. ولم يقدم OpenAI تعليقًا.

شاركها.