Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sakra... Stanford právě ukázal, proč LLM zní chytře, ale přesto selhávají ve chvíli, kdy realita začne útočit.
Tento článek se zabývá brutálním režimem selhání, který každý stavební agent zažil: dáte modelu málo specifikovaný úkol a on s radostí halucinuje chybějící části, čímž vznikne plán, který vypadá plynule a při realizaci se zhroutí.
Základní poznatek je jednoduchý, ale devastující pro přístupy pouze na prompt: uvažování se rozpadá, když nejsou známé předpoklady. A většina skutečných úkolů je plná neznámých.
Stanfordovo řešení se nazývá Samodotazovací obousměrné kategorické plánování (SQ-BCP) a nutí modely přestat předstírat, že vědí věci, které nevědí.
Místo předpokladu chybějících faktů každá akce explicitně sleduje své předpoklady takto:
• Spokojenost
• Porušeno
• Neznámý
Neznámé je klíčové. Když model narazí na neznámé, není mu dovoleno pokračovat.
Musí buď:
1. Položte cílenou otázku, abyste vyřešili chybějící fakt
nebo
2. Navrhnout přemostní akci, která nejprve stanoví podmínku (měření, kontrola, příprava atd.)
Teprve poté, co jsou všechny předpoklady vyřešeny, může plán pokračovat.
Ale tady je skutečný průlom: plány nejsou přijímány, protože vypadají blízko cíli.
Jsou přijímány pouze tehdy, pokud projdou formálním ověřovacím krokem pomocí kategoriových zpětných kontrol. Skóre podobnosti se používá pouze pro pořadí, nikoli pro správnost.
...

Top
Hodnocení
Oblíbené
