トークン需要の津波が迫る中、LLMの基盤となるメモリ+計算を*ちょうど良い*オーケストレーションにする大きなチャンスがあります。 根本的で明白でない制約は、チップ製造プロセスのため、物理的な実装も異なる2つの全く異なるメモリプールが存在することです。1) 計算ユニットのすぐ隣にあるオンチップSRAMは非常に高速ですが容量は非常に小さい、2) オフチップのDRAMは非常に大容量です。 しかし、その中身は長いストローでしか吸い取れません。さらに、アーキテクチャの詳細(例:シストリックアレイ)、数値解析なども多数あります。 最適な物理基盤の設計と、LLMのトップボリュームワークフロー(推論プリフィル/デコード、トレーニング/ファインチューニングなど)を最適なスループット/レイテンシー/コストで調整することは、今日最も興味深い知的パズルであり、最も高い報酬(NVDAの4.6Tを引用)と言えるでしょう。すべては多くのトークンを手に入れるために、速く安く手に入れるためです。おそらく最も重要なワークフロー(推論、デコード、そして密閉されたエージェントループでの長いトークンコンテキストでの*および*)は、今日存在するもの(HBMファーストのNVIDIAとSRAMファーストのCerebras)の両方が同時に達成するのが最も難しいものです。とにかく、MatXチームはA++グレードなので、少し関わることができて光栄ですし、昇給おめでとうございます!