Nemůžete se naučit to, co nemůžete vyzkoušet Zvyšte teplotu a vycvičte více zvědavých agentů. Jednoduché a efektivní. Z "Výcvik obecně zvědavého agenta": Navrhujeme různorodou sadu úkolů, kde agent LLM potřebuje k úspěchu strategické shromažďování informací, a poté trénujeme LLM na vlastních datech, aby upřednostňoval trajektorie s vyšším výkonem. Výsledné naučené chování může přenést nulový záběr na neviditelné úkoly, což ukazuje jeho potenciál pro vytváření obecných rozhodovacích agentů.
228