對於那些不是數位設計師的人,可以這樣理解。 1. TPU 的常規數據移動模式僅對矩陣乘法有效,更具序列性。 2. Nvidia 可以執行各種數據移動模式,並在吞吐量和重新排序操作上投入大量硬體資源以實現這一點。 GPU 是一個更複雜得多的架構,能夠在像 C++ 這樣的普通語言上進行相當通用的計算,實際上證明了 Nvidia 的編譯器工程師是多麼厲害。