多くの人は分散型計算が失敗するのは「GPUが足りないからだ」と考えています。 彼らは補給をじっと見ている。 本当の障害は調整であり、それを解決した人がAIインフラのルールを決めることになります。🧵
/2 私たちはボランティアの計算者から誤った教訓を学び続けていますFolding@Home。 そういった仕事は遅いノードやドロップアウトを許容します。 現代のAIトレーニングや推論は不整合を罰し、1つの不安定なGPUが全体の実行を停滞させることもあります。
/3 私たちには何度も浮かぶ疑問があります。 世界中に散らばり、不一致のGPUが一台の予測可能なマシンのように振る舞うことは可能でしょうか? もし答えがノーなら、信頼性や開発者の経験は重要ではありません。なぜなら、何も出荷できないからです。
/4 インターネットはGPUを異なるチューニングを持つ楽器のように振る舞わせています。 データセンタースタックは完璧なタイミングを前提としています。 グローバルメッシュはジッター、不均一な帯域幅、ランダムなダウンタイム、ハードウェアのばらつきを引き起こします。調整がその混乱を吸収しなければなりません。
/5 @YottaLabsマーケットプレイスではなくOSのルートを選んでいます。 スケジューリング、通信、メモリオフロード、故障処理、検証。 要点はシンプルで、信頼性の低いマシンをSLAに対して予測可能な行動をするクラスターに変えることです。
/6 最も具体的な洞察は、推論を二つの役割に分けたものです。 プリフィルには最高のGPUが必要です。 デコードはより弱いGPUでも動作します。 この設計により、高価なカードが安価なカードを待つのを防ぎ、「混合艦隊」を苦痛ではなく実用的にします。
/7 次に隠れたボトルネック、モデルの作業メモリ(KVキャッシュ)を移動させます。 一度に大量に送ると、時間がかかります。 Yottaは計算が実行されている間に小さなチャンクをストリーミングし、キャッシュを圧縮することでWANレイテンシが支配的でなくなります。
104