約1年前、私はHFに参加し、Accelerateの開発に携わりました。分散トレーニングの仕組みは理論上は知っていましたが、ほとんど経験はありませんでした@TheZachMueller。実験のためにH100が数台あってとても嬉しかったです。数ヶ月前にPrimeに入社しましたが、最初のプロジェクトの一つはTrinityのLarge RunとArceeが正常に動作し、高速に動くようにすることでした。今では、800Bモデルが数百台のGPUでスムーズに動作するように仕事に出かけ、研究クラスターの大部分を常に消費しています。ちょっと自己宣伝ですが、いろいろやれるなんてちょっと不思議ですよね?