Anledningen till att det var lätt att få vår flash-uppmärksamhet att vara 1,8 gånger snabbare än Torch är kvaliteten på vår kernelprofiler. Om du har RDNA3, kör med VIZ=2.
Du kan zooma in och se problemet och exekutionen i varje instruktion. Det gör att man ser flaskhalsar så snabbt.
LLM:er kan också spelas, du behöver inte webbgränssnittet. extra/viz/cli.py kan läsa samma profilerfiler. Det är fortfarande lite ojämnt, men detta kommer att möjliggöra den bästa autoresearch-pipelinen för kärnhastighet.
73