Memperkenalkan KernelBench-V3. Anda mungkin telah melihat ini di timelapse saya baru-baru ini. Perlu memastikan saya benar-benar memasak ini sebelum mengeluarkannya.
TLDR:
Saya membangun kembali KernelBench asli dari awal setelah METR menemukan banyak masalah yang dapat diretas. Kurangi dari 270 masalah menjadi 41 yang paling penting untuk rekayasa kernel. Ini berfokus pada arsitektur modern seperti MLA dan deltanet terjaga keamanannya, dan menjalankan 10 model perbatasan pada H100 + B200.
Gemini 3 Pro dan Claude Opus 4.5 memimpin kernel yang mengalahkan pytorch. GPT 5.2 memiliki kebenaran tertinggi tetapi lebih sedikit kernel cepat. Model terbuka benar-benar berjuang di sini.
Alasan utama saya menyatukan ini adalah karena saya pribadi ingin tahu model mana yang terbaik dalam gen/pengoptimalan kernel. Saya pikir saya memiliki jawaban yang lebih baik sekarang!
Masih banyak ruang untuk perbaikan! Terbuka untuk kontribusi.