TPUスーパーポッドの真のスケールはどれくらいですか? スーパーコンピュータの真の規模は、部屋にどれだけ多くのプロセッサを収容できるかで決まるものではありません。それは、どれだけ多くのプロセッサが一つのプロセッサとして効果的に考えられるかによって定義されます。この違いこそが、アイアンウッド、第7世代テンソル処理ユニット(TPU)、そしてTPUスーパーポッドのアーキテクチャの原動力です。 理論上、アイアンウッド・スーパーポッドのスケールは圧倒的で、単一の相互接続ドメインで最大9,216個のチップをスケールさせます。しかし、真の規模は彼らを結びつける布地にあります。 Ironwoodスーパーポッドでは、9.6テラビット毎秒で動作する画期的なInter-Chip Interconnect(ICI)ネットワーク技術を使用しています。これにより、9,216チップはほぼ瞬時の遅延で通信し、1.77ペタバイトもの共有高帯域幅メモリ(HBM)にアクセスします。 では、約1万個のチップをケーブルの悪夢を起こさずに接続するにはどうすればいいのでしょうか?その答えは光回路スイッチ(OCS)にあります。 ◾ アイアンウッドクラスターは「キューブ」と呼ばれるブロック(各64チップ)から構成されます。 ◾ 単一のキューブを超えてスケールさせるには、複数のキューブを光回路スイッチ(OCS)ネットワークで接続します。これは動的で再構成可能な光学ネットワークで、キューブ全体を接続し、小さな「ポッド」(例:4つのキューブを持つ256チップのアイアンウッドポッド)から巨大な「スーパーポッド」(例:144個のキューブを持つ9,216チップのシステム)へとスケールを拡張できます。 ◾ このOCSベースのトポロジーはフォールトトレランスの鍵です。キューブやリンクが故障した場合、OCSファブリックマネージャーはOCSにそのユニットを光学的にバイパスし、指定された予備部品で新しい完全な光回路を交換するよう指示します。 ハードウェア→方程式の半分に過ぎません。TPUスーパーポッドの真のスケールは、より迅速かつ効率的な成果を実現するために共同設計されたソフトウェアスタックによって解き放たれます。 データセンター全体のハードウェア最適化からオープンソフトウェアやマネージドサービスに至るまで、スタック全体にわたる深い統合のおかげで、Ironwood TPUはこれまでで最も強力で省エネルギーなTPUとなっています。