強くおすすめするチュートリアル:Python開発者向けのCUDAプログラミング入門。 カバー: - カーネルが数千のGPUスレッドにマッピングされる仕組み - ブロックサイズとスレッドサイズの意味 - ワープ発散が性能に重要な理由