Kami merilis kumpulan data sintetis skala besar: 💬FineTranslations. Kami mengambil 🥂 FineWeb2, kumpulan data pra-pelatihan multibahasa kami, dan menerjemahkannya ke dalam bahasa Inggris menggunakan Gemma3 27B. Hasilnya adalah korpus paralel besar, dengan lebih dari 1 triliun token!