معظم بيانات الويب بلغات (قليلة الموارد جدا) هي من الكتاب المقدس وويكيبيديا. الباقي؟ قام فريق البيانات @huggingface بتشغيل Gemma3 27B لمدة 3 أشهر لترجمته إلى الإنجليزية، وتحسين نماذج الترجمة، وجلب السياق الثقافي من 500+ مجتمع لغوي إلى بيانات التدريب باللغة الإنجليزية. إليكم المسار الكامل