Introducendo KernelBench-V3. Potresti averlo visto nei miei timelapse recentemente. Dovevo assicurarmi di averlo completamente sviluppato prima di pubblicarlo. TLDR: Ho ricostruito il KernelBench originale da zero dopo che METR ha scoperto che molti dei problemi erano hackabili. L'ho ridotto da 270 problemi a 41 che sono i più importanti per l'ingegneria del kernel. È focalizzato su architetture moderne come MLA e gated deltanet, e ha eseguito 10 modelli frontier su H100 + B200. Gemini 3 Pro e Claude Opus 4.5 guidano sui kernel che superano pytorch. GPT 5.2 ha la massima correttezza ma meno kernel veloci. Il modello open ha davvero faticato qui. Il motivo principale per cui ho messo insieme questo è che volevo personalmente sapere quale modello fosse il migliore nella generazione/ottimizzazione del kernel. Penso di avere una risposta migliore ora! C'è ancora molto margine di miglioramento! Aperto a contributi.