Der Grund, warum es einfach war, unsere Blitzaufmerksamkeit 1,8-mal schneller als Torch zu machen, ist die Qualität unseres Kernel-Profilers. Wenn Sie RDNA3 haben, führen Sie es mit VIZ=2 aus.
Sie können hineinzoomen und das Problem sowie die Ausführung jeder Anweisung sehen. Es macht das Erkennen von Engpässen so schnell.
LLMs können auch spielen, du benötigst nicht die Web-Oberfläche. extra/viz/cli.py kann die gleichen Profiler-Dateien lesen. Es ist noch ein wenig ungeschliffen, aber das wird die beste Autoresearch-Pipeline für die Kernelgeschwindigkeit ermöglichen.
48