Le rapport technique Kimi K2.5 vient de sortir ! Points clés : - Entraînement texte-vision conjoint : pré-entraîné avec 15T de tokens vision-texte, SFT sans vision (texte uniquement) pour activer le raisonnement visuel - Agent Swarm + PARL : sous-agents parallèles orchestrés dynamiquement, jusqu'à 4,5× de latence en moins, 78,4 % sur BrowseComp - MoonViT-3D : un encodeur image-vidéo unifié avec compression temporelle 4×, permettant des vidéos 4× plus longues dans le même contexte - Toggle : RL efficace en termes de tokens, 25 à 30 % de tokens en moins sans perte de précision Voici notre travail vers une intelligence agentique évolutive et réelle. Plus de détails dans le rapport 👉