Majoritatea datelor web în limbi cu (foarte) puține resurse sunt din Biblie și Wikipedia. Restul? @huggingface echipă de date a rulat Gemma3 27B timp de 3 luni pentru a-l traduce în engleză, a îmbunătăți modelele de traducere și a aduce context cultural din 500+ comunități lingvistice în datele de antrenament în limba engleză. Iată întregul pipeline