Die meisten Webdaten in (sehr) ressourcenarmen Sprachen sind die Bibel und Wikipedia. Der Rest? Das @huggingface-Datenteam hat Gemma3 27B drei Monate lang ausgeführt, um es ins Englische zu übersetzen, um die Übersetzungsmodelle zu verbessern und kulturellen Kontext aus über 500 Sprachgemeinschaften in die englischen Trainingsdaten zu bringen. Hier ist die gesamte Pipeline