¡Un gran trabajo de @carlobaronio @pmmarsella @ybenpan! Todavía queda un largo horizonte por delante para los agentes multiturno :)
Cognition
Cognition7 may 2025
Nuestros pasantes de investigación presentan: Kevin-32B = K(ernel D)evin Es el primer modelo abierto entrenado con RL para escribir kernels CUDA. Implementamos RL multiturno usando GRPO (basado en QwQ-32B) en el conjunto de datos de KernelBench. ¡Supera a los modelos de razonamiento superior (o3 y o4-mini)! 🧵
5.84K