أطلقت Openai أخيرًا GPT-5. إليك كل ما تحتاج إلى معرفته

السعودية برس

4 ساعات ago

يدعي منشور مدونة Openai أن GPT-5 يفوق نماذجه السابقة على العديد من معايير الترميز ، بما في ذلك SWE-BENCED التحقق (سجل 74.9 في المائة) ، SWE-Lancer (GPT-5-THEALLE سجلت 55 في المائة) ، ومسارّة Polyglot (سجل 88 في المائة) ، والتي تختبر قدرة النموذج على إصلاح الحوض الكامل.

خلال الإحاطة الصحفية يوم الأربعاء ، دفع Yann Dubois لما بعد التدريب Openai GPT-5 إلى “إنشاء تطبيق ويب جميل وتفاعل للغاية لشريكي ، متحدث باللغة الإنجليزية ، لتعلم الفرنسية”. لقد كلف الذكاء الاصطناعي لتضمين ميزات مثل التقدم اليومي ، ومجموعة متنوعة من الأنشطة مثل البطاقات التعليمية والمسابقات ، وأشار إلى أنه يريد أن ينتهي التطبيق في “موضوع جذاب للغاية”. بعد دقيقة أو نحو ذلك ، ظهر التطبيق الذي تم إنشاؤه بواسطة الذكاء الاصطناعى. على الرغم من أنه كان مجرد عرض واحد على القضبان ، إلا أن النتيجة كانت موقعًا أنيقًا قدم بالضبط ما طلبه Dubois.

تقول ميشيل بوكراس ، وهي زمام المبادرة بعد التدريب: “إنه متعاون ترميز رائع ، كما أنه يتفوق على المهام الوكلاء”. “إنه ينفذ سلاسل طويلة ومكالمات الأدوات بشكل فعال (مما يعني أنه يفهم بشكل أفضل متى وكيفية استخدام وظائف مثل متصفحات الويب أو واجهات برمجة التطبيقات الخارجية) ، وتتبع إرشادات مفصلة ، ويوفر تفسيرات مقدمة لأفعالها.”

يقول Openai أيضًا في منشور المدونة أن GPT-5 هو “أفضل نموذج لدينا حتى الآن للأسئلة المتعلقة بالصحة”. في ثلاث معايير LLM المتعلقة بالصحة Openai-HealthBench ، و HealthBench ، وتوافق صحة HealthBench-تنص بطاقة النظام (وهي وثيقة تصف القدرات الفنية للمنتج وغيرها من نتائج البحوث) على أن GPT-5-the-the-the the the the the the the the the the the the the the the the models “harmen heargin hearman heargen yberal”. سجلت نسخة التفكير من GPT-5 25.5 في المئة على HealthBench الصعب ، ارتفاعا من 31.6 في المئة من O3. يتم التحقق من صحة هذه الدرجات من قبل اثنين أو أكثر من الأطباء ، وفقا لبطاقة النظام.

يزعم أن النموذج يزعم أيضًا أنه يلموس أقل ، وفقًا لـ Pokrass ، وهي قضية مشتركة لمنظمة العفو الدولية حيث توفر معلومات خاطئة. يضيف أبحاث السلامة من Openai أليكس بيوتيل أنه “انخفض بشكل كبير معدلات الخداع في GPT-5.”

تقول بطاقة النظام: “لقد اتخذنا خطوات لتقليل ميل GPT-5-Thinking إلى خداع أو خداع أو اختراق ، على الرغم من أن تخفيفاتنا ليست مثالية والمزيد من البحث”. “على وجه الخصوص ، قمنا بتدريب النموذج على الفشل برشاقة عند طرحه مع المهام التي لا يمكن حلها.”

تقول بطاقة نظام الشركة أنه بعد اختبار نماذج GPT-5 دون الوصول إلى تصفح الويب ، وجد الباحثون معدل الهلوسة (الذي عرفوه بأنه “النسبة المئوية للمطالبات الواقعية التي تحتوي على أخطاء بسيطة أو رئيسية”) بنسبة 26 في المائة من نموذج GPT-4O. GPT-5-Thinking لديه معدل الهلوسة بنسبة 65 في المئة مقارنة مع O3.

بالنسبة للمطالبات التي يمكن أن تكون مزدوجة الاستخدام (قد تكون ضارة أو حميدة) ، يقول Beutel إن GPT-5 يستخدم “إكمال آمن” ، مما يطالب النموذج “بإعطاء إجابة مفيدة قدر الإمكان ، ولكن ضمن قيود البقاء آمنة”. قام Openai بأكثر من 5000 ساعة من الفريق الأحمر ، وفقًا لـ Beutel ، واختبار المنظمات الخارجية للتأكد من أن النظام قوي.

يقول Openai إنه يضم الآن ما يقرب من 700 مليون مستخدم نشط أسبوعيًا لـ ChatGPT ، و 5 ملايين مستخدمين يدفعون الدفع ، و 4 ملايين مطور يستخدمون واجهة برمجة التطبيقات.

يقول رئيس Chatgpt Nick Turley: “إن المشاعر في هذا النموذج جيدة حقًا ، وأعتقد أن الناس سيشعرون بذلك حقًا”. “خاصة الأشخاص العاديين الذين لم يقضوا وقتهم في التفكير في النماذج.”