Relatório incrível da equipe Kimi: Residuals de Atenção As conexões residuais tornaram os Transformers profundos treináveis. Mas também forçam um crescimento descontrolado do estado oculto com a profundidade. Este trabalho propõe uma alternativa mais limpa. Ele introduz os Residuals de Atenção, que substituem a acumulação residual fixa por atenção softmax sobre as saídas das camadas anteriores. Em vez de somar tudo cegamente, cada camada recupera seletivamente as representações anteriores de que realmente precisa. Para manter isso prático em escala, eles adicionam uma versão em blocos que comprime camadas em resumos de blocos, recuperando a maior parte dos ganhos com uma sobrecarga mínima do sistema. Por que isso é importante? Os caminhos residuais mal mudaram nos LLMs modernos, mesmo que governem como a informação se move através da profundidade. Este artigo mostra que tornar a mistura dependente do conteúdo melhora as leis de escalabilidade, iguala uma linha de base treinada com 1,25x mais computação, aumenta o GPQA-Diamond em +7,5 e o HumanEval em +3,1, enquanto mantém a sobrecarga de inferência abaixo de 2%. Artigo: Aprenda a construir agentes de IA eficazes em nossa academia: