Отчет от команды Kimi: Внимание к остаткам Остаточные соединения сделали глубокие трансформеры обучаемыми. Но они также заставляют скрытые состояния расти неконтролируемо с увеличением глубины. Эта работа предлагает более чистую альтернативу. Она вводит Остаточные Внимания, которые заменяют фиксированное накопление остатков на softmax-внимание к выходам предыдущих слоев. Вместо того чтобы слепо суммировать все, каждый слой выборочно извлекает более ранние представления, которые ему действительно нужны. Чтобы это было практично в больших масштабах, они добавляют блочную версию, которая сжимает слои в блочные резюме, восстанавливая большую часть выигрыша с минимальными системными затратами. Почему это важно? Остаточные пути едва изменились в современных LLM, хотя они управляют тем, как информация перемещается через глубину. Эта статья показывает, что зависимость смешивания от содержания улучшает законы масштабирования, соответствует базовому уровню, обученному с использованием на 1.25x больше вычислений, увеличивает GPQA-Diamond на +7.5 и HumanEval на +3.1, при этом сохраняя накладные расходы на вывод менее 2%. Статья: Научитесь создавать эффективные AI-агенты в нашей академии: