Det mesta av webbdata på (mycket) resursfattiga språk är Bibeln och Wikipedia. Resten? @huggingface datateam körde Gemma3 27B i 3 månader för att översätta det till engelska, förbättra översättningsmodeller och för att föra in kulturell kontext från 500+ språkiga gemenskaper i engelska träningsdata. Här är hela pipelinen