أظهرت دراسة حديثة أجرتها شركة جوجل أن دقة روبوتات الدردشة المدعومة بالذكاء الاصطناعي، والمعتمدة على النماذج اللغوية الكبيرة، لا تتجاوز 70% في كثير من الحالات. وكشف التقرير، الذي نشر مؤخرًا، عن وجود تباين كبير في أداء هذه النماذج، مما يثير تساؤلات حول موثوقيتها في تقديم معلومات دقيقة. وتأتي هذه النتائج في ظل تزايد الاعتماد على نماذج الذكاء الاصطناعي في مختلف التطبيقات، بدءًا من خدمة العملاء وصولًا إلى البحث وتقديم المعلومات.
أجرت جوجل الدراسة، التي تتألف من 18 صفحة، لتقييم قدرات النماذج اللغوية في فهم الأسئلة والإجابة عليها بدقة. وشملت الدراسة تقييمًا معمقًا لآليات عمل هذه النماذج، وتحديد الأسباب الرئيسية التي تؤدي إلى حصولها على تقييمات منخفضة في بعض الحالات. النتائج تشير إلى أن الأخطاء، على الرغم من أنها قد تبدو غير مهمة في بعض الأحيان، يمكن أن تكون ذات عواقب وخيمة في المجالات التي تتطلب دقة عالية.
آلية اختبار شاملة لـ نماذج الذكاء الاصطناعي
اعتمد فريق “ديب مايند” التابع لجوجل على أربعة معايير رئيسية لتقييم أداء النماذج. تضمنت هذه المعايير قياس القدرة على الوصول إلى المعرفة الداخلية، والبحث عن المعلومات على الإنترنت، وفهم المطالبات المتعلقة بالصور، وتقديم إجابات متسقة مع سياق محدد. تم تصميم هذه المعايير لتقديم تقييم شامل ومتوازن لقدرات النماذج المختلفة.
وشملت الاختبارات أكثر من 3500 نتيجة، تم مشاركتها بشكل مفتوح مع مجتمع “كاغل” العلمي، المعروف بتركيزه على علوم البيانات وتحليلها. احتفظت جوجل أيضًا بمجموعة من الاختبارات بشكل خاص، لضمان السرية والتحقق من النتائج. تم حساب متوسط الأداء لكل معيار بناءً على النتائج العامة والخاصة.
ركزت الدراسة على تقييم أداء النماذج في مجموعة متنوعة من المجالات، بما في ذلك الموسيقى والتكنولوجيا والتاريخ والعلوم والرياضة والسياسة وحتى برامج التلفزيون. يهدف هذا التنوع إلى تحديد نقاط القوة والضعف لكل نموذج في سياقات مختلفة. ومن الأمور التي تم اختبارها أيضاً قدرات التعلم الآلي في التعامل مع المعلومات المتخصصة.
نتائج الاختبارات والتصنيف
أظهرت نتائج الاختبارات تباينًا كبيرًا بين النماذج المختلفة. تصدر نموذج “جيميناي 3 برو” قائمة النماذج الأعلى أداءً، حيث حقق نسبة نجاح تتجاوز 69%. تبعه “جيميناي 2.5 برو” بنسبة 62%، ثم “جي بي تي 5” بنسبة 61.8%. في المقابل، حقق نموذجا “كلود أوبس 4.5” و “غروك” نسبًا أقل، حيث بلغت 51% و 53% على التوالي.
أظهرت النتائج تفوق “شات جي بي تي 5” في معيار الأساس ومعيار البحث، مما يعكس قدرته العالية على استرجاع المعلومات وتقديمها بشكل منظم. ومع ذلك، فقد كان المعيار متعدد الوسائط هو الأضعف بالنسبة لجميع النماذج، مما يشير إلى وجود تحديات في فهم الصور وربطها بالمعلومات النصية. أظهرت النتائج أيضاً أهمية تطوير الذكاء الاصطناعي التوليدي.
في المقابل، تبين أن نموذج “غروك 4 فاست” هو الأقل أداءً في جميع الاختبارات، حيث بلغ متوسطه 36%، وانخفض إلى 17% في المعيار متعدد الوسائط و 15% في المعيار البارامتري. يعكس هذا الأداء الضعيف الحاجة إلى مزيد من التحسينات في هذا النموذج.
الآثار والتوقعات المستقبلية
تؤكد هذه الدراسة على أن روبوتات الدردشة المدعومة بالذكاء الاصطناعي، على الرغم من التقدم الكبير الذي شهدته في السنوات الأخيرة، لا تزال بعيدة عن الكمال. إن وجود أخطاء في الإجابات، حتى بنسبة صغيرة، يمكن أن يكون له عواقب وخيمة في المجالات الحساسة مثل الرعاية الصحية والتمويل. هذا يسلط الضوء على ضرورة التحقق من المعلومات التي تقدمها هذه النماذج قبل الاعتماد عليها.
من المتوقع أن تستمر جوجل في تطوير نماذج الذكاء الاصطناعي الخاصة بها، والعمل على تحسين دقتها وموثوقيتها. كما ستواصل الشركة التعاون مع المجتمع العلمي لتبادل المعرفة والخبرات. من المرجح أن تشهد الأشهر القادمة إصدار تحديثات جديدة للنماذج الحالية، وإطلاق نماذج أكثر تطوراً وقدرة. بحلول الربع الأول من عام 2026، من المتوقع أن تقدم جوجل تقريرًا جديدًا يستعرض التقدم المحرز في هذا المجال والتحديات المستمرة.
في النهاية، تظل دقة وموثوقية نماذج الذكاء الاصطناعي من القضايا الحاسمة التي يجب معالجتها. فمع تزايد الاعتماد على هذه التقنيات في حياتنا اليومية، يصبح من الضروري التأكد من أنها تقدم معلومات دقيقة وموثوقة.






