Lansăm un set de date sintetic la scară largă: 💬FineTranslations. Am luat 🥂 FineWeb2, setul nostru multilingv de date pre-antrenament, și l-am tradus în engleză folosind Gemma3 27B. Rezultatul este un corpus paralel masiv, cu peste 1 trilion de tokenuri!