Naši výzkumní stážisté představují: Kevin-32B = K(ernel D)evin Je to první otevřený model trénovaný pomocí RL pro psaní CUDA jader. Implementovali jsme víceotáčkové RL pomocí GRPO (založené na QwQ-32B) na datasetu KernelBench. Překonává modely s nejvyšším rozumem (o3 & o4-mini)! 🧵
316,08K