Un lavoro davvero fantastico da parte @carlobaronio @pmmarsella @ybenpan! Ancora un lungo orizzonte davanti a sé per gli agenti a più turni :)
Cognition
Cognition7 mag 2025
I nostri stagisti di ricerca presentano: Kevin-32B = K(ernel D)evin È il primo modello aperto addestrato utilizzando RL per la scrittura di kernel CUDA. Abbiamo implementato RL multi-turn utilizzando GRPO (basato su QwQ-32B) sul set di dati KernelBench. Supera i migliori modelli di ragionamento (o3 e o4-mini)! 🧵
5,83K