La plupart des données web dans des langues (très) peu ressources proviennent de la Bible et de Wikipedia. Le reste ? L'équipe de données de @huggingface a exécuté Gemma3 27B pendant 3 mois pour le traduire en anglais, afin d'améliorer les modèles de traduction et d'apporter un contexte culturel de plus de 500 communautés linguistiques dans les données d'entraînement en anglais. Voici le pipeline complet