Důvod, proč bylo snadné získat naši flash pozornost, aby byla 1,8x rychlejší než torch, je kvalita našeho kernel profileru. Pokud máte RDNA3, používejte VIZ=2.
Můžete si přiblížit a vidět problém a rozsah jednotlivých instrukcí. To znamená, že vidět úzká místa je tak rychlé.
LLM také umí hrát, webové rozhraní nepotřebujete. extra/viz/cli.py může číst stejné profilovací soubory. Je to stále trochu nedokonalé, ale umožní to nejlepší automatický výzkumný proces pro rychlost jádra.
49