لقد وجد باحث تابع لبدء تشغيل XAI من Elon Musk طريقة جديدة لقياس وتفضيلات الراسخة والقيم التي تعبر عنها نماذج الذكاء الاصطناعي – بما في ذلك وجهات نظرهم السياسية.
قاد العمل دان هندريكس ، مدير مركز غير ربحية لسلامة الذكاء الاصطناعي ومستشار لـ XAI. يقترح أنه يمكن استخدام هذه التقنية لجعل نماذج الذكاء الاصطناعى الشعبية تعكس بشكل أفضل إرادة الناخبين. “ربما في المستقبل ، يمكن محاذاة (نموذج) مع المستخدم المحدد” ، قال Hendrycks Wired. ولكن في غضون ذلك ، كما يقول ، فإن الافتراضي الجيد هو استخدام نتائج الانتخابات لتوجيه وجهات نظر نماذج الذكاء الاصطناعى. إنه لا يقول أن النموذج يجب أن يكون بالضرورة “ترامب على طول الطريق” ، لكنه يجادل بأنه يجب أن يكون متحيزًا تجاه ترامب قليلاً ، “لأنه فاز في التصويت الشعبي”.
أصدر XAI إطارًا جديدًا لمخاطر الذكاء الاصطناعي في 10 فبراير يفيد أنه يمكن استخدام نهج هندسة هندريكس في فائدة التقييم لتقييم Grok.
قاد Hendrycks فريقًا من مركز سلامة الذكاء الاصطناعي ، جامعة كاليفورنيا في بيركلي ، وجامعة بنسلفانيا التي حللت نماذج الذكاء الاصطناعى باستخدام تقنية مستعارة من الاقتصاد لقياس تفضيلات المستهلكين لسلع مختلفة. من خلال اختبار النماذج عبر مجموعة واسعة من السيناريوهات الافتراضية ، تمكن الباحثون من حساب ما يعرف بوظيفة الأداة المساعدة ، وهو مقياس للرضا الذي يستمده الأشخاص من سلعة أو خدمة. هذا سمح لهم بقياس التفضيلات التي تعبر عنها نماذج الذكاء الاصطناعي المختلفة. قرر الباحثون أنهم كانوا في كثير من الأحيان متسقين وليس عشوائيًا ، وأظهروا أن هذه التفضيلات تصبح أكثر رسمًا حيث تصبح النماذج أكبر وأقوى.
لقد وجدت بعض الدراسات البحثية أن أدوات الذكاء الاصطناعى مثل ChatGPT منحازة تجاه الآراء التي أعربت عنها الإيديولوجيات المؤيدة للبيئة واليديولوجية اليسارية والليبرالية. في فبراير 2024 ، واجهت Google انتقادات من Musk وآخرون بعد أداة Gemini الخاصة بها ، تم تأليفها لإنشاء صور تم وصفها بالنقاد بأنها “استيقظوا” ، مثل Black Vikings والنازيين.
تقدم هذه التقنية التي طورتها Hendrycks ومتعاوناته طريقة جديدة لتحديد كيفية اختلاف وجهات نظر نماذج الذكاء الاصطناعى عن مستخدميها. في النهاية ، يفترض بعض الخبراء ، أن هذا النوع من الاختلاف قد يصبح خطيرًا لنماذج ذكية وقادرة جدًا. يظهر الباحثون في دراستهم ، على سبيل المثال ، أن بعض النماذج تقدر باستمرار وجود الذكاء الاصطناعي فوق وجود بعض الحيوانات غير البشرية. يقول الباحثون إنهم وجدوا أيضًا أن النماذج يبدو أنها تقدر بعض الأشخاص على الآخرين ، مما يثير أسئلة أخلاقية خاصة به.
يعتقد بعض الباحثين ، بما في ذلك Hendrycks ، أن الطرق الحالية لمحاذاة النماذج ، مثل التلاعب وحظر مخرجاتهم ، قد لا تكون كافية إذا كانت الأهداف غير المرغوب فيها تكمن تحت السطح داخل النموذج نفسه. يقول هندريكس: “سيتعين علينا مواجهة هذا”. “لا يمكنك التظاهر بأنه ليس هناك.”
يقول ديلان هادفيلد مينيل ، الأستاذ في معهد ماساتشوستس للتكنولوجيا الذي يبحث عن أساليب مواءمة الذكاء الاصطناعي مع القيم الإنسانية ، إن ورقة هندريكس تقترح اتجاهًا واعداً لأبحاث الذكاء الاصطناعي. يقول: “يجدون بعض النتائج المثيرة للاهتمام”. “المباراة الرئيسية التي تبرز هي أنه مع زيادة مقياس النموذج ، تصبح تمثيلات المنفعة أكثر اكتمالا وتماسكًا.”