Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Недавно DeepSeek опубликовал три статьи, все они подписаны именем Лянь Вэньфэна, и содержание статей также очень интересно.
Особенно та, которая касается Engram, DeepSeek фактически предоставил модели «словарь» на экзамене, освободив объем памяти для запоминания, чтобы сосредоточиться на сложных задачах.
Но они обнаружили, что если модель состоит только из памяти (Engram), то это просто заучка, которая не может мыслить.
Но если это будет только рассуждение (MOE), то потребуется потратить много вычислительных ресурсов на вывод фиксированных знаний, таких как «Какая столица Китая?».
Так сколько памяти нужно для экзамена?
DeepSeek разработал модель с золотым соотношением «памяти» и «мысли».
В итоге было установлено, что оптимальное соотношение: 75% для мышления, 25% для памяти.
Этот вывод может быть применим не только к моделям, но и заслуживает размышлений для человечества.
Когда человек запоминает все детали, это примерно равно отсутствию пространства для размышлений.
Логическое мышление и адекватная абстракция — источник прогресса человечества.
Когда у человека нет знаний, он просто тратит умственные силы на размышления о самых базовых вещах, умственная энергия уходит в пустую.
DeepSeek на практике показал, что добавление словаря уменьшает размышления, и модель получила эквивалент 7 слоев сети глубины мышления.
Неожиданно, широта знаний таким образом увеличила глубину размышлений.
Это очень вдохновляет.
Топ
Рейтинг
Избранное
