(非常に)資源の少ない言語のウェブデータのほとんどは聖書とウィキペディアです。残りは?データチームはGemma3 27Bを3か月間実行し、英語への翻訳、翻訳モデルの改善、そして500+言語コミュニティの文化的文脈を英語のトレーニングデータに取り込むために行いました。@huggingfaceこちらがパイプライン全体の詳細です