Latam-GPT جديد نموذج لغة كبير يتم تطويره في أمريكا اللاتينية. يهدف المشروع ، بقيادة المركز الوطني التشيلي غير الربحي للذكاء الاصطناعي (CENIA) ، إلى مساعدة المنطقة على تحقيق الاستقلال التكنولوجي من خلال تطوير نموذج منظمة العفو الدولية مفتوحة المصدر المدرب على لغات وسياقات أمريكا اللاتينية.

يقول ألفارو سوتو ، مدير سيليا ، في مقابلة مع Wired en Español: “لا يمكن إنجاز هذا العمل من قبل مجموعة واحدة أو بلد واحد فقط في أمريكا اللاتينية: إنه تحد يتطلب مشاركة الجميع”. “Latam-GPT هو مشروع يسعى إلى إنشاء نموذج منظمة العفو الدولية المفتوحة والمجانية ، وقبل كل شيء. لقد عملنا لمدة عامين مع عملية من القاعدة إلى القمة ، مع الجمع بين المواطنين من مختلف البلدان الذين يرغبون في التعاون. وفي الآونة الأخيرة ، شهدت أيضًا بعض المبادرات من أعلى إلى أسفل ، مع الحكومات المهتمة والبدء في المشاركة في المشروع.”

يبرز المشروع لروحه التعاونية. “لا نتطلع إلى التنافس مع Openai أو Deepseek أو Google. نريد نموذجًا خاصًا بأمريكا اللاتينية ومنطقة البحر الكاريبي ، على دراية بالمتطلبات والتحديات الثقافية التي يستلزمها ذلك ، مثل فهم لهجات مختلفة ، تاريخ المنطقة ، والجوانب الثقافية الفريدة” ، يوضح سوتو.

بفضل 33 شراكة استراتيجية مع مؤسسات في أمريكا اللاتينية ومنطقة البحر الكاريبي ، جمع المشروع مجموعة من البيانات التي تتجاوز ثمانية تيرابايت من النص ، أي ما يعادل ملايين الكتب. مكنت قاعدة المعلومات هذه من تطوير نموذج لغة مع 50 مليار معلمة ، وهو مقياس يجعلها مماثلة لـ GPT-3.5 وتمنحها قدرة متوسطة إلى عالية على أداء المهام المعقدة مثل التفكير والترجمة والجمعيات.

يتم تدريب Latam-GPT على قاعدة بيانات إقليمية تجمع المعلومات من 20 دولة في أمريكا اللاتينية وإسبانيا ، مع ما مجموعه 255500 وثيقة. يُظهر توزيع البيانات تركيزًا كبيرًا في أكبر البلدان في المنطقة ، مع البرازيل الرائد مع 685000 وثيقة ، تليها المكسيك مع 385،000 ، إسبانيا مع 325،000 ، كولومبيا مع 220،000 ، والأرجنتين مع 210،000 وثيقة. تعكس الأرقام حجم هذه الأسواق ، وتطورها الرقمي ، وتوافر المحتوى المنظم.

“في البداية ، سنطلق نموذجًا لغة. نتوقع أن يكون أدائها في المهام العامة قريبًا من نماذج تجارية كبيرة ، ولكن مع الأداء المتفوق في الموضوعات الخاصة بأمريكا اللاتينية. إن الفكرة هي أنه إذا سألنا عن الموضوعات ذات الصلة بمنطقتنا ، فإن معرفتها ستكون أعمق بكثير”.

النموذج الأول هو نقطة الانطلاق لتطوير عائلة من التقنيات الأكثر تقدماً في المستقبل ، بما في ذلك تلك التي تحتوي على الصور والفيديو ، ولتوسع نماذج أكبر. “نظرًا لأن هذا مشروع مفتوح ، فإننا نريد أن تكون مؤسسات أخرى قادرة على استخدامه. يمكن لمجموعة في كولومبيا تكييفها مع نظام التعليم المدرسي أو يمكن أن تتكيف معها في قطاع الصحة.

شاركها.