Il motivo per cui è stato facile ottenere la nostra attenzione flash per essere 1,8 volte più veloce di torch è la qualità del nostro profiler del kernel. Se hai RDNA3, esegui con VIZ=2.
Puoi ingrandire e vedere il problema e l'esecuzione di ciascuna istruzione. Rende così veloce vedere i colli di bottiglia.
I LLM possono giocare anche, non hai bisogno dell'interfaccia web. extra/viz/cli.py può leggere gli stessi file del profiler. È ancora un po' grezzo, ma questo abiliterà il miglior pipeline di autoresearch per la velocità del kernel.
51