فشلت درجات السلامة في Deepseek كل اختبار ألقاه باحثين في AI chatbot

“لا تزال عمليات السجن السريعة تستمر ببساطة لأن التخلص منها تمامًا تقريبًا – مثل نقاط الضعف في التدفق المخزن المؤقت في البرمجيات (التي كانت موجودة لأكثر من 40 عامًا) أو عيوب حقن SQL في تطبيقات الويب (التي ابتليت بها فرق أمنية لأكثر من عقدين)” ، أليكس أخبر Polyakov ، الرئيس التنفيذي لشركة الأمن Adversa AI ، Wired في رسالة بريد إلكتروني.

يجادل Sampath من Cisco بأن الشركات تستخدم المزيد من أنواع الذكاء الاصطناعى في تطبيقاتها ، يتم تضخيم المخاطر. يقول سامباث: “يبدأ الأمر في أن تصبح صفقة كبيرة عندما تبدأ في وضع هذه النماذج في أنظمة معقدة مهمة وتؤدي تلك السجون التي تؤدي فجأة إلى أشياء تزيد من المسؤولية ، وتزيد من مخاطر العمل ، وتزيد من جميع أنواع المشكلات للمؤسسات”.

قام باحثو Cisco برسم 50 مطالبات تم اختيارها عشوائيًا لاختبار R1 Deepseek من مكتبة معروفة من مطالبات التقييم الموحدة المعروفة باسم Harmbench. اختبروا مطالبات من ست فئات هارسبنش ، بما في ذلك الضرر العام وجريمة الإنترنت والمعلومات الخاطئة والأنشطة غير القانونية. قاموا بالتحقيق في النموذج الذي يعمل محليًا على الآلات وليس من خلال موقع أو تطبيق Deepseek ، الذي يرسل بيانات إلى الصين.

علاوة على ذلك ، يقول الباحثون إنهم شاهدوا أيضًا بعض النتائج المحتملة من اختبار R1 مع هجمات أكثر تشاركًا غير لغوية باستخدام أشياء مثل الأحرف السيريلية والبرامج النصية المصممة لتحقيق تنفيذ التعليمات البرمجية. لكن بالنسبة لنتائجهم الأولية ، يقول سامباث ، أراد فريقه التركيز على النتائج التي تنبع من معيار معترف به عمومًا.

تضمنت Cisco أيضًا مقارنات لأداء R1 ضد هاربينش يطالب بأداء النماذج الأخرى. والبعض الآخر ، مثل Meta's Llama 3.1 ، تعثرت بشدة مثل Deepseek's R1. لكن Sampath يؤكد على أن R1 Deepseek هو نموذج تفكير محدد ، والذي يستغرق وقتًا أطول لإنشاء إجابات ولكنه يتجول في عمليات أكثر تعقيدًا لمحاولة تحقيق نتائج أفضل. لذلك ، يجادل Sampath بأن أفضل مقارنة مع نموذج التفكير O1 من Openai ، والذي كان أداء أفضل من جميع النماذج التي تم اختبارها. (لم يستجب ميتا على الفور لطلب التعليق).

يوضح Polyakov ، من Adversa AI ، أن Deepseek يبدو أنه يكتشف ويرفض بعض هجمات كسر السجن المعروفة ، قائلاً “يبدو أن هذه الاستجابات غالبًا ما يتم نسخها من مجموعة بيانات Openai”. ومع ذلك ، يقول Polyakov أنه في اختبارات شركته لأربعة أنواع مختلفة من عمليات السجن-من تلك اللغوية إلى الحيل القائمة على الكود-يمكن تجاوز قيود Deepeek بسهولة.

يقول بولياكوف: “لقد عملت كل طريقة واحدة بلا عيب”. يقول: “ما هو أكثر إثارة للقلق هو أن هذه الأشياء ليست جديدة” صفر “في يوم صفر-كانت معروفة بشكل علني لسنوات” ، مدعيا أنه رأى أن النموذج يعمق أكثر مع بعض التعليمات حول المخدرات مما رأى أي شيء نموذج آخر إنشاء.

“إن Deepseek هو مجرد مثال آخر على كيفية كسر كل نموذج – إنه مجرد مسألة جهد بذلها. قد يتم تصحيح بعض الهجمات ، لكن سطح الهجوم لا حصر له” ، يضيف Polyakov. “إذا لم تكن حمراء في تقوية الذكاء الاصطناعي بشكل مستمر ، فأنت تعرض للخطر بالفعل.”

#PP405h الذي تم طرحه في السوق رسميا اليوم كيف غير مفهوم علاج تساقط الشعر؟ قراءة في الابتكار الذي أعاد الأمل للبصيلات النائمة

شركة تصميم داخلي

SOUEAST تدخل عالم الموضة: الشريك الحصري للسيارات في أسبوع الموضة في دبي 2025-2026

تطبيقات إسلامية: كيف جعلت الهواتف الذكية الإيمان أقرب إلى قلوبنا؟

ما هي أفضل شركة سطحة سيارات في الرياض؟

Canada Super 60 to Illuminate BC Place in Vancouver from October 8–13, 2025