@carlobaronio @pmmarsella @ybenpanからの本当に素晴らしい作品です!マルチターンエージェントにはまだ長い道のりがあります:)
Cognition
Cognition2025年5月7日
私たちの研究インターンは、以下のことを発表します。 ケビン-32B = K(アーネル・D)エヴィン これは、CUDA カーネルの書き込みに RL を使用してトレーニングされた最初のオープンモデルです。KernelBenchデータセットにGRPO(QwQ-32Bベース)を用いたマルチターンRLを実装しました。 これは、上位の推論モデル(o3およびo4-mini)を上回っています。🧵
5.84K