Magang penelitian kami menyajikan: Kevin-32B = K(ernel D)evin Ini adalah model terbuka pertama yang dilatih menggunakan RL untuk menulis kernel CUDA. Kami mengimplementasikan RL multi-putaran menggunakan GRPO (berdasarkan QwQ-32B) pada kumpulan data KernelBench. Ini mengungguli model penalaran teratas (o3 & o4-mini)! 🧵
316,09K