大規模な合成データセット「💬FineTranslations」を公開します。 私たちは多言語の事前学習データセットであるFineWeb2をGemma3 🥂 27Bで英語に翻訳しました。 その結果、1兆以上のトークンを持つ巨大な並列コーパスが誕生しました!