La mayoría de los datos web en idiomas (muy) de bajos recursos son la Biblia y Wikipedia. ¿El resto? El equipo de datos de @huggingface ejecutó Gemma3 27B durante 3 meses para traducirlo al inglés, mejorar los modelos de traducción y aportar contexto cultural de más de 500 comunidades lingüísticas a los datos de entrenamiento en inglés. Aquí está el pipeline completo