Představujeme KernelBench-V3. Možná jste to viděli v mých časosběrných videích nedávno. Potřeboval jsem se ujistit, že jsem to na něm úplně uvařil, než to uhasím. Shrnutí: Původní KernelBench jsem znovu postavil od začátku poté, co METR zjistil, že spousta problémů je hackovatelná. Zredukujte to z 270 na 41, které jsou pro jádrové inženýrství nejdůležitější. Zaměřuje se na moderní architektury jako MLA a gated deltanet a provozoval 10 frontier modelů na H100 + B200. Gemini 3 Pro a Claude Opus 4.5 vedou v jádrech, která překonávají pytorch. GPT 5.2 má nejvyšší správnost, ale méně rychlých jader. Open model tu opravdu bojoval. Hlavním důvodem, proč jsem to dal dohromady, bylo to, že jsem osobně chtěl vědět, který model je nejlepší pro generování a optimalizaci jádra. Myslím, že teď mám lepší odpověď! Stále je tu spousta prostoru pro zlepšení! Otevřený příspěvkům.