私たちの研究インターンは、以下のことを発表します。 ケビン-32B = K(アーネル・D)エヴィン これは、CUDA カーネルの書き込みに RL を使用してトレーニングされた最初のオープンモデルです。KernelBenchデータセットにGRPO(QwQ-32Bベース)を用いたマルチターンRLを実装しました。 これは、上位の推論モデル(o3およびo4-mini)を上回っています。🧵
316.08K