Причина, чому нам було легко привернути увагу до flash у 1,8 раза швидше, ніж torch, — це якість нашого профайлера ядра. Якщо у вас RDNA3, запускайте VIZ=2.
Ви можете збільшити масштаб і побачити проблему та виконавчість кожної інструкції. Це робить бачення вузьких місць дуже швидко.
LLM теж можна грати, веб-інтерфейс не потрібен. Extra/Viz/cli.py можуть читати ті ж файли профайлера. Це ще трохи недоречно, але це дозволить створити найкращий конвеєр автодослідження для швидкості ядра.
75