Декілька справді чудових робіт від @carlobaronio @pmmarsella @ybenpan! Ще довгий горизонт попереду для багатооборотних агентів :)
Cognition
Cognition7 трав. 2025 р.
Наші наукові стажери представляють: Кевін-32Б = К(Ернел Д)евін Це перша відкрита модель, навчена використовувати RL для написання ядер CUDA. Ми впровадили багатооборотний RL з використанням GRPO (на основі QwQ-32B) на наборі даних KernelBench. Він перевершує найкращі моделі міркувань (o3 і o4-mini)! 🧵
5,84K