Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Отчет от команды Kimi: Внимание к остаткам
Остаточные соединения сделали глубокие трансформеры обучаемыми.
Но они также заставляют скрытые состояния расти неконтролируемо с увеличением глубины.
Эта работа предлагает более чистую альтернативу.
Она вводит Остаточные Внимания, которые заменяют фиксированное накопление остатков на softmax-внимание к выходам предыдущих слоев.
Вместо того чтобы слепо суммировать все, каждый слой выборочно извлекает более ранние представления, которые ему действительно нужны.
Чтобы это было практично в больших масштабах, они добавляют блочную версию, которая сжимает слои в блочные резюме, восстанавливая большую часть выигрыша с минимальными системными затратами.
Почему это важно?
Остаточные пути едва изменились в современных LLM, хотя они управляют тем, как информация перемещается через глубину.
Эта статья показывает, что зависимость смешивания от содержания улучшает законы масштабирования, соответствует базовому уровню, обученному с использованием на 1.25x больше вычислений, увеличивает GPQA-Diamond на +7.5 и HumanEval на +3.1, при этом сохраняя накладные расходы на вывод менее 2%.
Статья:
Научитесь создавать эффективные AI-агенты в нашей академии:

Топ
Рейтинг
Избранное
