@carlobaronio @pmmarsella @ybenpan 做得非常出色!多轮代理仍有很长的路要走 :)
Cognition
Cognition2025年5月7日
我们的研究实习生介绍: Kevin-32B = K(ernel D)evin 这是第一个使用 RL 训练的用于编写 CUDA 内核的开放模型。我们在 KernelBench 数据集上使用 GRPO (基于 QwQ-32B)实现了多轮 RL。 它的表现优于顶级推理模型(o3 & o4-mini)!🧵
5.84K