Suurin osa verkkodatasta (erittäin) vähäresurssisilla kielillä on Raamattua ja Wikipediaa. Loput? @huggingface datatiimi pyöritti Gemma3 27B:tä kolmen kuukauden ajan kääntääkseen sen englanniksi, parantaakseen käännösmalleja ja tuodakseen kulttuurisen kontekstin 500+ kieliyhteisöstä englannin koulutusdataan. Tässä on koko tuotantoputki