We brengen een grootschalige synthetische dataset uit: 💬FineTranslations. We hebben 🥂 FineWeb2, onze meertalige pre-trainingsdataset, genomen en deze in het Engels vertaald met Gemma3 27B. Het resultaat is een enorme parallelle corpus, met meer dan 1 biljoen tokens!