Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Три нещодавні статті, опубліковані DeepSeek, усі підписані Лян Веньфеном, і їхній зміст також дуже цікавий.
Особливо в статті про Engram DeepSeek еквівалентний тому, як принести «словник» моделі до оглядової кімнати, звільняючи механічні мозкові потужності для складних задач.
Але вони з'ясували, що якщо модель повністю про пам'ять (Енграм), то це просто механічний ботанік, який взагалі не може думати.
Але якщо це лише висновки (MOE), то багато обчислювальної потужності витрачається на отримання фіксованих знань, наприклад, «де столиця Китаю».
Скільки спогадів треба взяти на іспит?
DeepSeek розробив модель золотого перетину «пам'яті» та «мислення».
Найкраще співвідношення в підсумку було: 75% для мислення і 25% для пам'яті.
Цей висновок може бути не лише доречним для моделі, а й вартим роздумів.
Коли людина запам'ятовує всі деталі, це рівнозначно тому, що у неї немає простору для роздумів.
Логічне мислення, відповідно абстрактне, є джерелом людського прогресу.
Коли людина взагалі не має знань, вона лише марнує енергію мозку на найпростіші речі, а мозок просто бездіяльний.
DeepSeek визначив, що після додавання словника для зменшення мислення модель має додаткову глибину мислення, еквівалентну 7-шаровій мережі.
Неочікувано, широта знань підвищує глибину мислення таким чином.
Дуже надихає.
Найкращі
Рейтинг
Вибране
