Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
это довольно безумно, что это разреженное внимание работает так хорошо, они просто разрежают 50% слоев MLA в базе LongCat-Flash на среднем этапе обучения и получают аналогичные результаты с оригинальной моделью
калибровка выбирает, какие слои MLA они разрежают. LongCat-Flash имеет эту "странную" (не в плохом смысле) структуру слоев, где в одном слое находятся 2 слоя внимания, нет упоминания о каком-то другом обращении с этими 2 слоями, так что я предполагаю, что они применяют один и тот же процесс к обоим. Шаг калибровки:
output = a_i · output_dense + (1 - a_i) · output_sparse
и они делают градиентный спуск по a_i (который относится к каждому слою внимания). если a_i высокое => этот слой должен быть плотным, если нет, вы можете его разрежить. таким образом, они разрежают 50% слоев (к сожалению, у нас нет распределения разреженных слоев). Этот шаг калибровки имеет безумное влияние на longeval
разреженное внимание также очень простое, оно фиксированное и не учитывает контекст, как deepseek DSA/NSA или MiniCPM InfiLLMv2, это скользящее окно с 8 блоками по 128 токенов (так что размер окна 1024), первые 128 токенов и последние 896 токенов
интересно, будут ли будущие модели @Meituan_LongCat использовать это в продакшене и будет ли это устойчиво к RL!

Топ
Рейтинг
Избранное
