(1/6)GPUネットワークはAIの効率のボトルネックであり、基盤となるハードウェアも急速に変化しています!ParallelKittensをリリースできることを嬉しく思います。これはThunderKittensのアップデートで、高速な計算通信の重なりマルチGPUカーネルを簡単に書けるようになったほか、データ、テンソル、シーケンス、エキスパート並列の新しいカーネルも追加できます! こちらは重なり合った子猫の写真と、マルチGPUカーネルの最適化時に注意すべきポイントです。 (@simran_s_arora、@bfspector、@hazyresearch。@cursor_aiと@togethercomputeの寛大な支援を受けています)