A maior parte dos dados da web em línguas (muito) de baixo recurso é a Bíblia e a Wikipedia. O resto? A equipa de dados da @huggingface executou o Gemma3 27B durante 3 meses para traduzi-lo para inglês, a fim de melhorar os modelos de tradução e trazer o contexto cultural de mais de 500 comunidades linguísticas para os dados de treino em inglês. Aqui está o pipeline completo