Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 СРОЧНО: Стэнфорд только что опубликовал самую неудобную статью о рассуждениях LLM.
В ней показан систематический разбор того, почему LLM продолжают терпеть неудачи, даже когда таблицы лидеров говорят, что они идеальны.
Они разделили рассуждения на две категории: не воплощенные (математика, логика, здравый смысл) и воплощенные (физический мир).. и одни и те же ошибки проявляются повсюду.
Одним из самых тревожных выводов является то, как часто модели выдают неверные рассуждения.. модели могут дать вам правильный окончательный ответ, но их объяснение полностью сфабриковано или логически неверно. Это буквально учит нас доверять фальшивому процессу принятия решений..
Они также страдают от фундаментальных архитектурных недостатков (разрушение под легкой логикой) и недостатков устойчивости (изменение одного слова в вашем запросе меняет весь ответ). А воплощенные рассуждения? Еще хуже. У LLM нет физической основы, поэтому они предсказуемо терпят неудачи в базовой физике.
Вывод:
LLM рассуждают достаточно, чтобы звучать убедительно, но недостаточно, чтобы быть надежными. Мы развертываем системы, которые проходят тесты, но молча терпят неудачи в производстве.

Топ
Рейтинг
Избранное
