شهد مجال الذكاء الاصطناعي تطوراً ملحوظاً مع ظهور نظام جديد قادر على التعلم من خلال الفيديو وإظهار “دهشة” عندما يواجه معلومات تتعارض مع ما تعلمه. تم تطوير هذا النظام، المسمى “Video Joint Embedding Predictive Architecture” (V-JEPA)، من قبل شركة ميتا، ويمثل خطوة نحو تمكين الآلات من فهم العالم بطريقة أكثر شبهاً بالبشر. يثير هذا الإنجاز تساؤلات مهمة حول مستقبل قدرات الآلات على الإدراك والاستنتاج.

أُعلن عن هذا التقدم الأخير في مجال الذكاء الاصطناعي خلال الأسبوع الجاري، وتزامن مع اهتمام متزايد بقدرة الأنظمة الآلية على التفاعل مع البيئات المعقدة. يهدف هذا النظام الجديد إلى تجاوز القيود الحالية للنماذج القائمة على معالجة الفيديو، والتي غالباً ما تعتمد على تحليل البكسلات بشكل منفصل. يعد هذا التطور مهماً للعديد من التطبيقات، بما في ذلك القيادة الذاتية والروبوتات والواقع المعزز.

فهم العالم من خلال “الدهشة”: تطور في تقنيات الذكاء الاصطناعي

تقليدياً، تواجه أنظمة الذكاء الاصطناعي صعوبة في فصل التفاصيل الهامة عن المعلومات غير الضرورية عند تحليل مقاطع الفيديو. غالباً ما تعمل هذه الأنظمة في ما يسمى بـ “فضاء البكسل”، حيث يتم التعامل مع كل بكسل في الفيديو على قدم المساواة. هذا النهج يمكن أن يؤدي إلى التركيز المفرط على تفاصيل غير ذات صلة، مثل حركة الأوراق في مشهد شارع، مما يعيق القدرة على استخلاص المعنى العام.

يقدم نظام V-JEPA بديلاً لهذا النهج. فهو لا يعتمد على افتراضات مسبقة حول القوانين الفيزيائية التي تحكم العالم، ولكنه قادر على تعلم هذه القوانين من خلال مشاهدة كميات كبيرة من الفيديو. عندما يُعرض النظام بمشهد يتعارض مع فهمه للعالم، فإنه يظهر “دهشة” بمعنى أنه يكتشف وجود شيء غير متوقع.

كيف يعمل نظام V-JEPA؟

يعمل النظام من خلال بناء نموذج تنبؤي للعالم. عند مشاهدة سلسلة من الإطارات في الفيديو، يحاول النظام التنبؤ بالإطار التالي. إذا كان التنبؤ دقيقاً، فإنه يعتبر أن المشهد يتفق مع فهمه للعالم. أما إذا كان التنبؤ غير دقيق، فإنه يعتبر أن المشهد “مفاجئ” ويبدأ في تعديل نموذجه ليعكس هذه المعلومة الجديدة. هذه العملية شبيهة بالطريقة التي يتعلم بها الأطفال، حيث يطورون فهمًا للعالم من خلال الملاحظة والتجربة.

يعتمد هذا النهج على ما يسمى بـ “التعلم التمثيلي” (representation learning)، وهو مجال فرعي من التعلم الآلي يهدف إلى تمكين الآلات من تعلم تمثيلات ذات مغزى للبيانات. بدلاً من التركيز على البكسلات الفردية، يركز النظام على التعرف على الكائنات والعلاقات بينها. وهذا يسمح له بفهم المشهد بشكل أكثر تجريداً وشمولية.

يشير الخبراء إلى أن هذا التطور يمثل نقلة نوعية في مجال رؤية الكمبيوتر (computer vision). فقد كانت الأنظمة التقليدية تحتاج إلى كميات هائلة من البيانات المُصنّفة بشكل يدوي لكي تتعلم، في حين أن نظام V-JEPA قادر على التعلم من الفيديو غير المُصنّف. وهذا يجعله أكثر كفاءة ومرونة.

لا يزال نظام V-JEPA قيد التطوير، وهناك العديد من التحديات التي يجب التغلب عليها. على سبيل المثال، قد يواجه النظام صعوبة في فهم المشاهد المعقدة التي تتضمن العديد من الكائنات والعلاقات. ويمكن أن يتأثر أداء النظام بجودة الفيديو.

ومع ذلك، يمثل هذا النظام خطوة واعدة نحو بناء أنظمة ذكاء اصطناعي أكثر ذكاءً وقدرة على التكيف. فالقدرة على التعلم من خلال الفيديو وإظهار “الدهشة” هي سمات أساسية للذكاء البشري، ومن الممكن أن تساعد الآلات على التفاعل مع العالم بطريقة أكثر طبيعية وفعالية. وتشير الأبحاث الأولية إلى فوائد محتملة في تطوير أنظمة قيادة ذاتية أكثر أماناً، وروبوتات قادرة على المساعدة في المهام المنزلية، وتطبيقات الواقع المعزز التي توفر تجارب غامرة أكثر واقعية.

بالإضافة إلى ذلك، يمكن أن يؤدي هذا النهج إلى تطوير أنظمة قادرة على اكتشاف الحالات الشاذة في الفيديو، مثل الحوادث أو الجرائم. يمكن استخدام هذه الأنظمة في مجموعة متنوعة من المجالات، بما في ذلك المراقبة الأمنية والتشخيص الطبي. ويعد تطوير خوارزميات التعلم القادرة على اكتشاف الأنماط غير المتوقعة، مثل تلك التي يظهرها نظام V-JEPA، أمراً بالغ الأهمية لتعزيز أداء أنظمة الذكاء الاصطناعي في مواجهة الأحداث النادرة أو غير المألوفة.

من المتوقع أن تستمر ميتا في تطوير نظام V-JEPA، مع التركيز على تحسين قدرته على فهم المشاهد المعقدة وزيادة كفاءته. وتشير التقديرات إلى أن الإصدارات المستقبلية من النظام قد تتضمن القدرة على معالجة الصوت بالإضافة إلى الفيديو، مما سيسمح له بفهم العالم بشكل أكثر شمولية. من بين الأمور التي يجب مراقبتها في المستقبل، القدرة على قياس “الدهشة” بشكل كمي، وكيفية استخدام هذه القياسات لتحسين أداء النظام.

شاركها.