Vi introducerar KernelBench-V3. Du kanske har sett detta i mina timelapses nyligen. Behövde se till att jag var helt genomstekt på den innan jag satte ut den. Sammanfattning: Jag byggde om den ursprungliga KernelBench från grunden efter att METR upptäckte att en stor del av problemet gick att hacka. Minska det från 270 problem till 41 som är viktigast för kärnteknik. Den fokuserar på moderna arkitekturer som MLA och gated deltanet, och körde 10 frontier-modeller på H100 + B200. Gemini 3 Pro och Claude Opus 4.5 leder på kärnor som slår pytorch. GPT 5.2 har högst korrekthet men färre snabba kärnor. Öppen modell hade verkligen svårt här. Huvudanledningen till att jag slängde ihop detta var att jag personligen ville veta vilken modell som var bäst för kernelgenerering/optimering. Jag tror att jag har ett bättre svar nu! Det finns fortfarande mycket utrymme för förbättring! Öppen för bidrag.