Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вражаюче опитування агентного мислення для LLM.
(закладки для цього)
135+ сторінок!
Чому це має значення?
LLM добре міркують у закритому світі, але їм важко у відкритих, динамічних середовищах, де інформація розвивається.
Відсутній елемент — це дія. Це пов'язано з тим, що статичне мислення без взаємодії не може адаптуватися, навчитися чи покращуватися завдяки зворотному зв'язку.
Це нове дослідження систематизує парадигму агентного мислення, де LLM переосмислюються як автономні агенти, які планують, діють і навчаються через постійну взаємодію з навколишнім середовищем.
Вона надає єдину дорожню карту, яка поєднує думки та дії, пропонуючи практичні рекомендації щодо створення агентних систем у контексті динаміки навколишнього середовища та оптимізації.
Фреймворк організовує агентне мислення за трьома комплементарними вимірами:
1. Фундаментальне агентне мислення: основні можливості одноагента, включаючи планування, використання інструментів і пошук. Агенти розкладають цілі, викликають зовнішні інструменти та перевіряють результати за допомогою виконуваних дій. Це корінна порода.
2. Самоеволюційне агентне мислення: як агенти покращуються через зворотний зв'язок, пам'ять і адаптацію. Замість того, щоб слідувати фіксованим шляхам мислення, агенти розробляють механізми рефлексії, критики та навчання на основі пам'яті. Рефлексія, RL-для пам'яті та безперервна адаптація пов'язують мислення з навчанням.
3. Колективне багатоагентне мислення: масштабування інтелекту від ізольованих розв'язувачів до колаборативних екосистем. Кілька агентів координують роботу через призначення ролей, протоколи зв'язку та спільну пам'ять. Дебати, вирішення розбіжностей і послідовність через багатоповоротні взаємодії.
На всіх рівнях опитування розрізняє два режими оптимізації: міркування в контексті (масштабування обчислень за часом висновку через оркестрацію та пошук без оновлення параметрів) та посттренінговий міркування (внутрішнє засвоєння стратегій через RL і тонке налаштування).
Опитування охоплює застосування, що охоплюють дослідження математики, наукові відкриття, втілену робототехніку, охорону здоров'я та автономні веб-дослідження. Також розглядається ландшафт бенчмарків для оцінки можливостей агентів.
Я уважно вивчав цю галузь досліджень, і ось деякі відкриті виклики, які залишаються: персоналізація, довгоперспективна взаємодія, моделювання світу, масштабоване навчання мультиагентів та рамки управління для реального впровадження.
...

Найкращі
Рейтинг
Вибране
