Sebagian besar data web dalam bahasa sumber daya (sangat) rendah adalah Alkitab dan Wikipedia. Sisanya? @huggingface tim data menjalankan Gemma3 27B selama 3 bulan untuk menerjemahkannya ke dalam bahasa Inggris, untuk meningkatkan model terjemahan dan untuk membawa konteks budaya dari 500+ komunitas bahasa ke dalam data pelatihan bahasa Inggris. Berikut adalah pipeline lengkapnya