شهد العامان الأخيران قفزة هائلة في نماذج الذكاء الاصطناعي التوليدي الصوتي (Generative Audio)، وانحصرت المنافسة الكبرى بين مدرستين، هما مدرسة “سونو إيه آي” (Suno AI) التي تركز على المحاكاة الهيكلية الكاملة، ومدرسة “غوغل ديب مايند” (Google DeepMind – Lyria) التي تركز على النمذجة الموجية الدقيقة. وفي هذا التحليل، نستعرض أبرز الفروق بين النموذجين المطروحين ومدى قدرتهما على معالجة الموسيقى العربية.

البنية التحتية ونمذجة الصوت (Architecture)

تعتمد “سونو” في بنيتها الأساسية على هندسة مشابهة للنماذج اللغوية الكبيرة (LLMs)، مما يجعلها قادرة على فهم “تراتبية الأغنية” والتنبؤ بالتوكنات الصوتية التالية بناءً على سياق تدريبي ضخم. يبرع “سونو” في توليد مقاطع طويلة ومتسقة لحنيًا، قد تصل إلى أربع دقائق متواصلة، بما يراعي الفرق بين أجزاء الأغنية المختلفة مثل المقطع واللازمة.

ومع ذلك، قد يواجه “سونو” تحديات تقنية تتمثل في “الضجيج الرقمي” (Artifacts) نتيجة اندماج الترددات الصوتية للآلات مع الأصوات البشرية، مما يعقد عملية الهندسة العكسية وفصل الآلات لاحقًا.

في المقابل، يستخدم نموذج “ليريا” (Lyria) من غوغل ديب مايند تقنيات متطورة في معالجة الإشارات الرقمية (DSP) والشبكات العصبية العميقة للتعامل مع الموجة الصوتية (Waveform) مباشرة بجودة احترافية. يتفوق “ليريا” في معدل العينة (Sample Rate) وعمق البت (Bit Depth)، مما ينتج عنه صوت نقي يضاهي جودة الاستوديو.

إضافة إلى ذلك، يمتلك “ليريا” تقنية “سينث آي دي” (SynthID)، وهي علامة مائية غير مسموعة تدمج في الموجة الصوتية، تعمل على حماية الحقوق وتحديد مصدر الصوت، ما يجعله خيارًا آمنًا للمحترفين.

معالجة الموسيقى العربية.. المقامات والإيقاع

عند الانتقال إلى معالجة الموسيقى العربية، تظهر الفجوة التقنية في كيفية التعامل مع “الربع تون” والإيقاعات المعقدة. يمتلك “سونو” قاعدة بيانات واسعة من الأغاني العربية المعاصرة، مما يمكنه من محاكاة الروح والأداء والتعبير الصوتي ببراعة، خاصة في الأنماط الشعبية والبوب.

بينما يركز “ليريا” على “فيزيائية الآلة”. عند طلب آلات مثل العود أو القانون، يقوم “ليريا” بمحاكاة رنين الأوتار بدقة مذهلة، مما يجعله يتفوق في المقطوعات الآلية والموسيقى التصويرية التي تتطلب نقاءً صوتيًا فائقًا.

تحاول هذه التطبيقات محاكاة المقامات الشرقية من خلال موازنة الترددات الرقمية لتناسب الذائقة العربية. ورغم نجاحها في تقديم ألحان متماسكة لغويًا ونغميًا، إلا أن التنفيذ يظل معتمدًا على الأنماط الإحصائية، مما يجعلها بارعة في المحاكاة ولكنها لا تزال تسعى لفك شيفرة الارتجال الشرقي الأصيل.

نموذج تطبيقي

لتحقيق أقصى استفادة من هذه التقنيات في مشروع موسيقي عربي، تتطلب “سونو” وصفًا تفصيليًا (Prompt) لاختيارات المستخدم، لا سيما عند استخدام الوضع المخصص. يُنصح بتحديد الكلمات مع “وسوم المقاطع” مثل [Intro] و [Verse 1] و [Chorus]، بالإضافة إلى وصف نمط الموسيقى بعبارات مثل “بوب عربي أكوستيك، عود، عاطفي، إيقاع بطيء، غناء نسائي، جودة عالية”.

لتوسيع أغنية أعجبتك في “سونو”، يمكن استخدام خاصية “Extend” لإضافة مقاطع جديدة بنفس اللحن والروح، ثم دمجها في ملف واحد. أما في “ليريا”، فيتم التركيز على “النسيج الصوتي” من خلال وصف تقني مثل “تخت عربي أصيل، ناي منفرد بصدى عميق، مكبر ميكروفون أولي عتيق من سبعينيات القرن الماضي، دفء تناظري، جودة صوت 4 كيه”.

يُنصح ببدء توليد 30 ثانية من التقاسيم (Intro) في “ليريا”، ثم استخدام خاصية (Add Section) لإدخال الكلمات تدريجيًا لضمان الحفاظ على جودة الآلات. يتلخص الاختلاف الحالي بين النموذجين في دقة النغمة في “ليريا” وقدرة “سونو” على إنتاج أغاني أطول. من المتوقع أن تندمج هذه القدرات مع التطور المستمر، حيث قد يوفر “ليريا” واجهات برمجية (APIs) لتوليد أغاني كاملة، بينما يحسن “سونو” من جودة ضغطه الصوتي.

بالنسبة للمستخدم العربي، يعتمد اختيار النموذج على الهدف؛ فـ “سونو” مخصص للانتشار والتعبير العاطفي، بينما “ليريا” يخدم الاحترافية والإبداع الصوتي.

شاركها.