对于那些不是数字设计师的人,可以这样理解。 1. TPU的常规数据移动模式仅对矩阵乘法有效,更加串行。 2. Nvidia可以执行各种数据移动模式,并在吞吐量和重排序操作上投入大量硬件资源以实现这一点。 GPU的架构复杂得多,能够在像C++这样简单的语言上进行相当通用的计算,实际上证明了Nvidia的编译器工程师是多么优秀。