Raport techniczny Kimi K2.5 właśnie się ukazał! Szybkie informacje: - Wspólne szkolenie tekstowo-wizualne: wstępnie wytrenowane z 15T tokenów wizualno-tekstowych, zero-wizji SFT (tylko tekst) w celu aktywacji rozumowania wizualnego - Agent Swarm + PARL: dynamicznie zorganizowane równoległe sub-agenty, do 4,5× niższa latencja, 78,4% w BrowseComp - MoonViT-3D: zjednoczony enkoder obraz-wideo z 4× kompresją czasową, umożliwiający 4× dłuższe filmy w tym samym kontekście - Toggle: efektywne tokenowo RL, 25–30% mniej tokenów bez spadku dokładności Oto nasza praca nad skalowalną, rzeczywistą inteligencją agentową. Więcej szczegółów w raporcie 👉