Rapport percutant de l'équipe Kimi : Attention Residuals Les connexions résiduelles rendent les Transformers profonds entraînables. Mais elles forcent également une croissance incontrôlée de l'état caché avec la profondeur. Ce travail propose une alternative plus propre. Il introduit les Attention Residuals, qui remplacent l'accumulation résiduelle fixe par une attention softmax sur les sorties des couches précédentes. Au lieu de tout additionner aveuglément, chaque couche récupère sélectivement les représentations antérieures dont elle a réellement besoin. Pour garder cela pratique à grande échelle, ils ajoutent une version par blocs qui compresse les couches en résumés de blocs, récupérant la plupart des gains avec un minimum de surcharge système. Pourquoi est-ce important ? Les chemins résiduels ont à peine changé à travers les LLM modernes, même s'ils gouvernent comment l'information se déplace à travers la profondeur. Cet article montre que rendre le contenu dépendant du mélange améliore les lois d'échelle, correspond à une base entraînée avec 1,25x plus de calcul, booste GPQA-Diamond de +7,5 et HumanEval de +3,1, tout en maintenant la surcharge d'inférence en dessous de 2%. Article : Apprenez à construire des agents AI efficaces dans notre académie :