Motivul pentru care a fost ușor să ne facem atenția flash de 1,8 ori mai rapidă decât torch-ul este calitatea kernel-ului. Dacă ai RDNA3, folosește VIZ=2.
Poți mări și vedea problema și executarea fiecărei instrucțiuni. Asta face ca vederea blocajelor să fie atât de rapidă.
LLM-urile pot juca și ele, nu ai nevoie de interfața web. Extra/viz/cli.py pot citi aceleași fișiere profiler. Este încă puțin brut, dar acest lucru va permite cea mai bună conductă de autocercetare pentru viteza kernelului.
32