Vi slipper et storskala syntetisk datasett: 💬FineTranslations. Vi tok 🥂 FineWeb2, vårt flerspråklige fortreningsdatasett, og oversatte det til engelsk ved hjelp av Gemma3 27B. Resultatet er et massivt parallelt korpora, med mer enn 1 billion tokens!