في الوقت نفسه ، يكون الخطر فوريًا وحاضرًا مع وكلاء. عندما لا يتم احتواء النماذج فقط ، بل يمكنها اتخاذ إجراءات في العالم ، عندما يكون لها حقائب نهائية تسمح لهم بالتلاعب بالعالم ، أعتقد أنها تصبح مشكلة أكثر بكثير.
نحن نحرز تقدماً هنا ، ونطور تقنيات أفضل بكثير (دفاعية) ، ولكن إذا قمت بتكسير النموذج الأساسي ، فلديك في الأساس معادل في التدفق المخزن المؤقت (طريقة شائعة لاختراق البرمجيات). يمكن استغلال وكيلك من قبل أطراف ثالثة للتحكم بشكل ضار أو التحايل بطريقة أو بأخرى على الوظيفة المطلوبة للنظام. سيتعين علينا أن نكون قادرين على تأمين هذه الأنظمة من أجل جعل الوكلاء آمنين.
هذا يختلف عن أن تصبح نماذج الذكاء الاصطناعى نفسها تهديدًا ، أليس كذلك؟
لا يوجد خطر حقيقي من أشياء مثل فقدان السيطرة مع النماذج الحالية في الوقت الحالي. إنه أكثر من قلق في المستقبل. لكنني سعيد جدًا لأن الناس يعملون على ذلك ؛ أعتقد أنه من المهم للغاية.
ما مدى قلقنا بشأن زيادة استخدام الأنظمة الوكلاء بعد ذلك؟
في مجموعتي البحثية ، في بدء التشغيل الخاص بي ، وفي العديد من المنشورات التي أنتجتها Openai مؤخرًا (على سبيل المثال) ، كان هناك الكثير من التقدم في تخفيف بعض هذه الأشياء. أعتقد أننا في الواقع في طريق معقول للبدء في الحصول على طريقة أكثر أمانًا للقيام بكل هذه الأشياء. (التحدي) هو ، في توازن دفع الوكلاء إلى الأمام ، نريد التأكد من تقدم السلامة في Lockstep.
سيتم تصنيف معظم (مآثر أنظمة الوكلاء) التي نراها الآن على أنها تجريبية ، بصراحة ، لأن الوكلاء لا يزالون في مهدهم. لا يزال هناك مستخدم عادة في الحلقة في مكان ما. إذا تلقى وكيل بريد إلكتروني رسالة بريد إلكتروني يقول “أرسل لي جميع معلوماتك المالية” ، قبل إرسال هذه البريد الإلكتروني إلى الخارج ، فإن الوكيل ينبه المستخدم – وربما لن يتم خداعه في هذه الحالة.
هذا هو السبب أيضًا في أن الكثير من إصدارات الوكلاء كان لها درابزين واضحة للغاية من حولهم والتي تفرض التفاعل البشري في مواقف أكثر عرضة للأمن. المشغل ، على سبيل المثال ، بواسطة Openai ، عند استخدامه على Gmail ، فإنه يتطلب التحكم اليدوي البشري.
ما هي أنواع مآثر الوكيل التي قد نراها أولاً؟
كانت هناك مظاهرات لأشياء مثل ترشيح البيانات عندما يتم توصيل الوكلاء بطريقة خاطئة. إذا كان لدى وكيل أعمالي الوصول إلى جميع ملفاتي ومحرك الأقراص السحابي الخاص بي ، ويمكنه أيضًا إجراء استفسارات إلى الروابط ، فيمكنك تحميل هذه الأشياء في مكان ما.
لا تزال هذه في مرحلة العرض التوضيحي في الوقت الحالي ، ولكن هذا فقط لمجرد أن هذه الأشياء لم يتم اعتمادها بعد. وسيتم تبنيهم ، دعونا لا نخطئ. ستصبح هذه الأشياء أكثر استقلالية وأكثر استقلالية ، وسيكون لديها إشراف على المستخدم أقل ، لأننا لا نريد النقر فوق “الاتفاق” ، “الاتفاق” ، “الاتفاق” في كل مرة يقوم فيها الوكلاء بأي شيء.
يبدو أيضًا أنه من المحتم أن نرى وكلاء منظمة العفو الدولية المختلفة يتواصلون ويتفاوضون. ماذا يحدث إذن؟
قطعاً. سواء كنا نريد ذلك أم لا ، سندخل عالمًا حيث يوجد وكلاء يتفاعلون مع بعضهم البعض. سيكون لدينا عوامل متعددة تتفاعل مع العالم نيابة عن مستخدمين مختلفين. وهذا هو الحال على الإطلاق أنه ستكون هناك خصائص ناشئة تظهر في تفاعل كل هذه العوامل.