Présentation de KernelBench-V3. Vous l'avez peut-être vu dans mes timelapses récemment. J'avais besoin de m'assurer que j'avais bien finalisé cela avant de le publier. Résumé : J'ai reconstruit le KernelBench original depuis zéro après que METR a trouvé un tas de problèmes exploitables. Je l'ai réduit de 270 problèmes à 41 qui comptent le plus pour l'ingénierie des noyaux. Il est axé sur des architectures modernes comme MLA et gated deltanet, et a exécuté 10 modèles de pointe sur H100 + B200. Gemini 3 Pro et Claude Opus 4.5 dominent sur des noyaux qui battent pytorch. GPT 5.2 a la plus haute exactitude mais moins de noyaux rapides. Le modèle ouvert a vraiment eu du mal ici. La principale raison pour laquelle j'ai assemblé cela était que je voulais personnellement savoir quel modèle était le meilleur en génération/optimisation de noyaux. Je pense que j'ai maintenant une meilleure réponse ! Il y a encore beaucoup de place pour l'amélioration ! Ouvert aux contributions.