Stiamo rilasciando un dataset sintetico su larga scala: 💬FineTranslations. Abbiamo preso 🥂 FineWeb2, il nostro dataset di pre-addestramento multilingue, e lo abbiamo tradotto in inglese utilizzando Gemma3 27B. Il risultato è un enorme corpus parallelo, con più di 1 trilione di token!