Знайомимося з KernelBench-V3. Можливо, ви бачили це в моїх таймлапсах останнім часом. Потрібно було переконатися, що я повністю приготував це, перш ніж ставити. Коротко: Я перебудував оригінальний KernelBench з нуля після того, як METR виявив, що багато проблем можна зламати. Скоротіть кількість задач з 270 до 41, які мають найбільше значення для інженерії ядра. Вона зосереджена на сучасних архітектурах, таких як MLA та gateed deltanet, і запускала 10 моделей Frontier на H100 + B200. Gemini 3 Pro та Claude Opus 4.5 лідирують за зернами, які перевершують pytorch. GPT 5.2 має найвищу коректність, але менше швидких ядер. Відкрита модель тут справді мала труднощі. Головна причина, чому я це зібрав, була в тому, що особисто хотів дізнатися, яка модель найкраще підходить для генерації та оптимізації ядра. Думаю, тепер у мене є краща відповідь! Ще багато простору для покращення! Відкрито до внесків.