Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Présentation de KernelBench-V3. Vous l'avez peut-être vu dans mes timelapses récemment. J'avais besoin de m'assurer que j'avais bien finalisé cela avant de le publier.
Résumé :
J'ai reconstruit le KernelBench original depuis zéro après que METR a trouvé un tas de problèmes exploitables. Je l'ai réduit de 270 problèmes à 41 qui comptent le plus pour l'ingénierie des noyaux. Il est axé sur des architectures modernes comme MLA et gated deltanet, et a exécuté 10 modèles de pointe sur H100 + B200.
Gemini 3 Pro et Claude Opus 4.5 dominent sur des noyaux qui battent pytorch. GPT 5.2 a la plus haute exactitude mais moins de noyaux rapides. Le modèle ouvert a vraiment eu du mal ici.
La principale raison pour laquelle j'ai assemblé cela était que je voulais personnellement savoir quel modèle était le meilleur en génération/optimisation de noyaux. Je pense que j'ai maintenant une meilleure réponse !
Il y a encore beaucoup de place pour l'amélioration ! Ouvert aux contributions.


Meilleurs
Classement
Favoris
