Apresentando o KernelBench-V3. Você pode ter visto isso nos meus timelapses recentemente. Precisava garantir que cozinhei bem antes de colocar para fora. Resumo: Reconstruí o KernelBench original do zero depois que o METR descobriu que muitos problemas eram hackeáveis. Reduza de 270 para 41 problemas que mais importam para engenharia de kernel. Ele é focado em arquiteturas modernas como MLA e deltanet gated, e rodou 10 modelos fronteira no H100 + B200. Gemini 3 Pro e Claude Opus 4.5 lideram os kernels que vencem o pytorch. O GPT 5.2 tem a maior correção, mas menos kernels rápidos. O modelo aberto realmente teve dificuldades aqui. O principal motivo de eu ter montado tudo isso foi porque eu queria saber qual modelo era melhor em geração de kernel/otimização. Acho que agora tenho uma resposta melhor! Ainda há muito espaço para melhorias! Aberto a contribuições.