في مكتب مفتوح مزدحم في ماونتن فيو، كاليفورنيا، كان روبوت طويل ونحيف ذو عجلات مشغولاً بلعب دور المرشد السياحي ومساعد المكتب غير الرسمي – بفضل ترقية نموذج اللغة الكبير، كما كشفت شركة Google DeepMind اليوم. يستخدم الروبوت أحدث إصدار من نموذج اللغة الكبير Gemini من Google لتحليل الأوامر وإيجاد طريقه.

على سبيل المثال، عندما يُقال للروبوت من قبل شخص ما “ابحث لي عن مكان للكتابة”، ينطلق الروبوت بهدوء، ويقود الشخص إلى سبورة بيضاء نظيفة تقع في مكان ما في المبنى.

إن قدرة جيميني على التعامل مع الفيديو والنص ـ بالإضافة إلى قدرته على استيعاب كميات كبيرة من المعلومات في هيئة جولات فيديو مسجلة مسبقاً في المكتب ـ تسمح لروبوت “مساعد جوجل” بفهم بيئته والتنقل بشكل صحيح عندما يُعطى أوامر تتطلب بعض التفكير السليم. ويجمع الروبوت جيميني مع خوارزمية تولد إجراءات محددة ليقوم بها الروبوت، مثل الدوران، استجابة للأوامر وما يراه أمامه.

عندما تم إطلاق جيميني في ديسمبر، قال ديميس هاسابيس، الرئيس التنفيذي لشركة جوجل ديب مايند، لمجلة WIRED إن قدراتها المتعددة الوسائط من المرجح أن تفتح المجال أمام قدرات روبوتية جديدة. وأضاف أن باحثي الشركة كانوا يعملون بجد لاختبار الإمكانات الروبوتية للنموذج.

وفي ورقة بحثية جديدة تصف المشروع، يقول الباحثون وراء العمل إن روبوتهم أثبت أنه موثوق بنسبة 90 في المائة في التنقل، حتى عندما أُعطيت أوامر صعبة مثل “أين تركت قطاري الأفعواني؟” وكتب الفريق أن نظام DeepMind “حسن بشكل كبير من طبيعة التفاعل بين الإنسان والروبوت، وزاد بشكل كبير من قابلية استخدام الروبوت”.

يوضح العرض التوضيحي بوضوح الإمكانات التي تتمتع بها نماذج اللغة الكبيرة للوصول إلى العالم المادي والقيام بعمل مفيد. تعمل Gemini وغيرها من برامج الدردشة الآلية في الغالب داخل حدود متصفح الويب أو التطبيق، على الرغم من أنها أصبحت قادرة بشكل متزايد على التعامل مع المدخلات البصرية والسمعية، كما أظهرت كل من Google وOpenAI مؤخرًا. في مايو، عرضت Hassabis نسخة مطورة من Gemini قادرة على فهم تخطيط المكتب كما يُرى من خلال كاميرا الهاتف الذكي.

تتسابق مختبرات الأبحاث الأكاديمية والصناعية لمعرفة كيف يمكن استخدام نماذج اللغة لتعزيز قدرات الروبوتات. ويتضمن برنامج شهر مايو للمؤتمر الدولي للروبوتات والأتمتة، وهو حدث شعبي للباحثين في مجال الروبوتات، ما يقرب من عشرين ورقة بحثية تتضمن استخدام نماذج لغة الرؤية.

ويستثمر المستثمرون الأموال في الشركات الناشئة التي تهدف إلى تطبيق التطورات في مجال الذكاء الاصطناعي على الروبوتات. ومنذ ذلك الحين، ترك العديد من الباحثين المشاركين في مشروع جوجل الشركة لتأسيس شركة ناشئة تسمى Physical Intelligence، والتي تلقت تمويلًا أوليًا بقيمة 70 مليون دولار؛ وهي تعمل على الجمع بين نماذج اللغة الكبيرة والتدريب في العالم الحقيقي لمنح الروبوتات قدرات عامة على حل المشكلات. وتسعى شركة Skild AI، التي أسسها خبراء الروبوتات في جامعة كارنيجي ميلون، إلى تحقيق هدف مماثل. وقد أعلنت هذا الشهر عن تمويل بقيمة 300 مليون دولار.

قبل بضع سنوات فقط، كان الروبوت يحتاج إلى خريطة لبيئته وأوامر مختارة بعناية للتنقل بنجاح. تحتوي نماذج اللغة الكبيرة على معلومات مفيدة حول العالم المادي، والإصدارات الأحدث التي يتم تدريبها على الصور والفيديو وكذلك النص، والمعروفة باسم نماذج لغة الرؤية، يمكنها الإجابة على الأسئلة التي تتطلب الإدراك. يسمح Gemini لروبوت Google بتحليل التعليمات المرئية وكذلك المنطوقة، باتباع رسم تخطيطي على السبورة البيضاء يوضح الطريق إلى وجهة جديدة.

وفي ورقتهم البحثية، يقول الباحثون إنهم يخططون لاختبار النظام على أنواع مختلفة من الروبوتات. ويضيفون أن جيميني يجب أن يكون قادرًا على فهم أسئلة أكثر تعقيدًا، مثل “هل لديهم مشروبي المفضل اليوم؟” من مستخدم لديه الكثير من علب الكوكاكولا الفارغة على مكتبه.

شاركها.