Introductie van KernelBench-V3. Je hebt dit misschien recentelijk in mijn timelapses gezien. Ik moest ervoor zorgen dat ik dit volledig had uitgewerkt voordat ik het publiceerde. TLDR: Ik heb de originele KernelBench vanaf nul opnieuw opgebouwd nadat METR een aantal problemen ontdekte die hackbaar waren. Ik heb het aantal problemen teruggebracht van 270 naar 41 die het belangrijkst zijn voor kernel engineering. Het is gericht op moderne architecturen zoals MLA en gated deltanet, en ik heb 10 frontier-modellen getest op H100 + B200. Gemini 3 Pro en Claude Opus 4.5 leiden op kernels die beter zijn dan pytorch. GPT 5.2 heeft de hoogste correctheid maar minder snelle kernels. Het open model had hier echt moeite. De belangrijkste reden dat ik dit samenstelde was omdat ik persoonlijk wilde weten welk model het beste was in kernel generatie/optimalisatie. Ik denk dat ik nu een beter antwoord heb! Er is nog veel ruimte voor verbetering! Open voor bijdragen.