Vi släpper en storskalig syntetisk datamängd: 💬FineTranslations. Vi tog 🥂 FineWeb2, vår flerspråkiga förträningsdatamängd, och översatte den till engelska med hjälp av Gemma3 27B. Resultatet är ett massivt parallellt korpus, med mer än 1 biljon tokens!