AIにおけるGPU不足はチップの問題ではありませんでした。たくさんあります。 本当の危機は、まだほとんどのツールを使えないことです。 その理由🧵は以下の通りです
@cot_research 2/ ギャップを見てみましょう:ボランティアで計算をすることは、消費者向けハードウェアでも問題なく動作しますFolding@Home。@pewdiepieも素晴らしい仕事をして貢献しています! しかし、現代のAIワークロードは失敗するでしょう。 同じハードウェアプールです。結果は全く違う。なぜでしょうか。
3/ 現代のAIランタイム(推論または訓練)は無菌状態を想定します: - 同一のGPU - 低遅延で安定したリンク しかし現実の世界は、異種な機械と遅いインターネットの混沌です 標準的な技術スタックはここで崩壊します。
4/ いわゆる「分散型」の計算ネットワークの多くは、この混乱を例外的なケースとして扱うため、製品市場適合に成功していません。 彼らはアイドルGPUを集約するためのマーケットプレイスを構築しますが、集約は調整ではありません。 ハードウェアが一つの一つの一貫した機械のように振る舞えなければ、それは...あまり役に立たない
5/調整は上流にあります。 コンピュートネットワークにおいては、まず断片化されたハードウェアの調整を解決しなければ、他の構築は何も意味を持ちません。 信頼性や開発者の経験は後継の問題です。
6/@YottaLabsは、私が見た中で初めてこの問題に一から取り組み、大きな進歩を見せているチームです。 スケジューラーから通信層までAIスタックを再構築することで、分散型計算性能を集中型クラスタの約15%以内にまで引き上げました。
7/ さらに興味深いのは@YottaLabsのビジネスモデルです。市場は二次的なものだ。 彼らはGoogleが再現できない運用レジリエンスにおけるデータの堀、すなわちインテリジェントオプティマイザーを構築しています Yottaはすべてのサーマルスパイクやネットワークのトラブルを最適化装置にフィードバックします。この点については後ほど詳しく説明します。
61