La raison pour laquelle il était facile d'attirer notre attention flash pour être 1,8 fois plus rapide que torch est la qualité de notre profileur de noyau. Si vous avez RDNA3, exécutez avec VIZ=2.
Vous pouvez zoomer et voir le problème et l'exécution de chaque instruction. Cela permet de repérer les goulets d'étranglement très rapidement.
Les LLM peuvent aussi jouer, vous n'avez pas besoin de l'interface web. extra/viz/cli.py peut lire les mêmes fichiers de profilage. C'est encore un peu brut, mais cela va permettre d'activer le meilleur pipeline d'autorecherche pour la vitesse du noyau.
66