I nostri stagisti di ricerca presentano: Kevin-32B = K(ernel D)evin È il primo modello aperto addestrato utilizzando RL per la scrittura di kernel CUDA. Abbiamo implementato RL multi-turn utilizzando GRPO (basato su QwQ-32B) sul set di dati KernelBench. Supera i migliori modelli di ragionamento (o3 e o4-mini)! 🧵
316,07K