أوضح انقطاع خدمات Amazon Web Services المترامي الأطراف والذي بدأ في وقت مبكر من صباح يوم الاثنين الترابط الهش للإنترنت حيث عانت المنصات الرئيسية للاتصالات والمالية والرعاية الصحية والتعليم والمنصات الحكومية في جميع أنحاء العالم من الاضطرابات. مع مرور اليوم، قامت AWS بتشخيص المشكلة وبدأت العمل على تصحيحها، والتي نشأت من منطقة US-EAST-1 المهمة للشركة ومقرها شمال فيرجينيا. لكن سلسلة التأثيرات استغرقت وقتًا حتى يتم حلها بالكامل.

سلط الباحثون الذين يفكرون في الحادث الضوء بشكل خاص على طول فترة انقطاع الخدمة يوم الاثنين، والتي بدأت حوالي الساعة 3 صباحًا بالتوقيت الشرقي يوم الاثنين 20 أكتوبر. وقالت AWS في تحديثات الحالة أنه بحلول الساعة 6:01 مساءً بالتوقيت الشرقي يوم الاثنين “عادت جميع خدمات AWS إلى عملياتها الطبيعية”. نشأ الانقطاع بشكل مباشر عن واجهات برمجة تطبيقات قاعدة بيانات DynamoDB الخاصة بأمازون، ووفقًا للشركة، فقد “أثر” على 141 خدمة أخرى من خدمات AWS. أكد العديد من مهندسي الشبكات والمتخصصين في البنية التحتية لمجلة WIRED أن الأخطاء مفهومة ولا مفر منها بالنسبة لما يسمى بـ “المتخصصين في مجال التوسع الفائق” مثل AWS وMicrosoft Azure وGoogle Cloud Platform، نظرًا لتعقيدها وحجمها الهائل. لكنهم أشاروا أيضًا إلى أن هذا الواقع لا ينبغي أن يعفي مقدمي الخدمات السحابية ببساطة من توقفهم عن العمل لفترة طويلة.

يقول إيرا وينكلر، كبير مسؤولي أمن المعلومات في شركة الموثوقية والأمن السيبراني CYE: “إن كلمة “الإدراك المتأخر” هي المفتاح. من السهل اكتشاف الخطأ الذي حدث بعد وقوعه، لكن الموثوقية الإجمالية لـ AWS توضح مدى صعوبة منع كل فشل”. “من الناحية المثالية، سيكون هذا درسًا مستفادًا، وستقوم أمازون بتنفيذ المزيد من عمليات التكرار التي من شأنها أن تمنع وقوع كارثة مثل هذه في المستقبل – أو على الأقل تمنعهم من البقاء في حالة تعطل طالما حدث ذلك.”

لم تستجب AWS لأسئلة WIRED حول المدة الطويلة لاسترداد العملاء. يقول متحدث باسم AWS إن الشركة تخطط لنشر أحد “ملخصات ما بعد الحدث” حول الحادث.

يقول جيك ويليامز، نائب رئيس البحث والتطوير في شركة Hunter Strategy: “لا أعتقد أن هذا كان مجرد انقطاع في الخدمة. كنت أتوقع إصلاحًا كاملاً بشكل أسرع بكثير”. “إن منحهم حقهم، فإن حالات الفشل المتتالية ليست شيئًا يحصلون على الكثير من الخبرة في العمل معه لأنهم لا يعانون من انقطاع التيار الكهربائي في كثير من الأحيان. لذلك هذا يرجع إلى رصيدهم. ولكن من السهل حقًا الدخول في عقلية منح هذه الشركات تصريحًا، ويجب ألا ننسى أنهم يخلقون هذا الموقف من خلال محاولتهم بنشاط جذب المزيد من العملاء إلى البنية التحتية الخاصة بهم. فالعملاء لا يتحكمون فيما إذا كانوا يقومون بتوسيع أنفسهم أو ما قد يحدث ماليًا.”

نتج الحادث عن مسبب مألوف لانقطاعات الويب – مشكلات حل “نظام اسم المجال”. DNS هو في الأساس آلية دليل الهاتف على الإنترنت لتوجيه متصفحات الويب إلى الخوادم الصحيحة. ونتيجة لذلك، تعد مشكلات DNS مصدرًا شائعًا لانقطاع الخدمة لأنها يمكن أن تتسبب في فشل الطلبات ومنع تحميل المحتوى.

شاركها.