🧵CAIの5つのプレトレーニングのコツ。 Googleとの契約前は、@character_ai GCP H100-TCPXで事前トレーニングを行っていましたが、これはIBの帯域幅の1/4です(!)。@NoamShazeer「スクインチ」と呼ばれる勾配圧縮アルゴリズムを発明し、ネットワークが悪いにもかかわらずSOTA MFUを維持しました。