强烈推荐的教程:面向 Python 开发者的 CUDA 编程入门。 内容包括: - 内核如何映射到成千上万的 GPU 线程 - 块和线程大小的含义 - 为什么 warp 分歧对性能很重要