Většina webových dat v (velmi) málo zdrojových jazycích je Bible a Wikipedia. Zbytek? @huggingface datový tým spouštěl Gemma3 27B po dobu 3 měsíců, aby ji přeložil do angličtiny, zlepšil překladové modely a přenesl kulturní kontext z 500+ jazykových komunit do tréninkových dat angličtiny. Tady je kompletní pipeline