The Breakthrough هو مشروع مشترك بين شبكة CNN وجامعة جورج تاون وجامعة ميشيغان وSSRS وVerasight.
في كل أسبوع، يُطلب من 1000 أمريكي مشاركة ما شاهدوه أو قرأوه أو سمعوه عن المرشحين الرئاسيين الرئيسيين بكلماتهم الخاصة. وتستند النتائج إلى عمل مماثل في الانتخابات الرئاسية لعامي 2016 و2020، وتوفر نافذة فريدة على كيفية تجربة الناس في جميع أنحاء البلاد للحملة التاريخية لهذا العام.
بدأت المقابلات لهذا المشروع في 21 يونيو، قبل المناظرة الرئاسية التي أجرتها شبكة CNN بين الرئيس جو بايدن والرئيس السابق دونالد ترامب، وستستمر حتى يوم الأحد بعد يوم الانتخابات.
يتم جمع نتائج الاستطلاع عبر الإنترنت من الجمعة إلى الاثنين من كل أسبوع، باللغة الإنجليزية، من بين عينة وطنية تضم حوالي 1000 شخص بالغ أسبوعيًا من خلال استطلاع SSRS Opinion Panel Omnibus ولوحة Verasight المعتمدة. يتم دمج نتائج الاستطلاعين باستخدام منهجية Encipher Hybrid من SSRS لدمج العينات الاحتمالية وغير الاحتمالية.
يُطرح على المشاركين في الاستطلاع أسئلة حول مرشحي الحزب الرئيسي: “ما الذي سمعته أو قرأته أو رأيته في الأيام القليلة الماضية عن دونالد ترامب؟” و”ما الذي سمعته أو قرأته أو رأيته في الأيام القليلة الماضية عن كامالا هاريس؟”. كما يُطرح على المشاركين نفس السؤال حول المرشح المستقل روبرت ف. كينيدي جونيور. وقد أُضيف السؤال حول هاريس إلى الاستطلاع في 19 يوليو، قبل وقت قصير من إعلان بايدن عن قراره بإنهاء حملته لإعادة انتخابه. كما طُرح على المشاركين نفس السؤال حول بايدن منذ بدء المشروع.
يتم ترتيب الأسئلة بشكل عشوائي، بحيث لا يتم سؤال جميع المشاركين عن المرشحين بنفس الترتيب. يتم ترميز الإجابات الدقيقة لهذه الأسئلة على أساس معالجة النصوص التقليدية لتحليل تردد الكلمات، ونمذجة الموضوع لتحليل الموضوع، والتعلم العميق لتحليل المشاعر. تم تطوير قاعدة التعليمات البرمجية بشكل مشترك من قبل ليزا سينغ في جامعة جورج تاون مع مدخلات من فريق البحث الخاص بها والفريق الفني لمعهد البيانات الضخمة وجوش باسيك ومايكل تراوجوت وسيرين بوداك في جامعة ميشيغان.
مع تقدم الحملة، قد تتغير الكلمات المرتبطة بموضوعات فردية، مما قد يؤدي إلى تغييرات في الموضع النسبي لتلك الموضوعات في النتائج القديمة. هذه التغييرات ضرورية لكي تكون المقارنات الحالية صالحة. لتطوير الموضوعات، يتم تحديد كلمات الموضوع يدويًا وزيادتها بالكلمات والموضوعات المحددة باستخدام مزيج من تخصيص ديريتشليت الكامن الخالي من الضوضاء (NLDA) ونموذج الموضوع والضوضاء الموجه (GTM). يتم ترميز المشاعر باستخدام RoBERTa المدرب مسبقًا على التغريدات الإنجليزية والمُحسَّنة باستخدام SemEva.
يتألف فريق البحث الذي أجرى تحليل نتائج The Breakthrough وأدار عملية المسح من: جينيفر أجيستا وأرييل إدواردز ليفي وإدوارد وو ودانا العبيد من شبكة CNN؛ وليزا سينغ ولي باو ويانتشين وانج ومحمد أحمد من جامعة جورج تاون؛ وجوش باسيك ومايكل تراوجوت وسيرين بوداك من جامعة ميشيغان؛ وأكيلة إيفانز بيجفورد وهوب ويلسون وكاميرون ماكفي وأعضاء متعددين من فريق الأساليب المتقدمة وعلوم البيانات في SSRS من SSRS؛ وبيتر ك. إينس وجريتشن ستريت وأميليا جورانسون وجيك روتشيلد من فيراسيت.