Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La naiba... Stanford tocmai a arătat de ce LLM-urile sună inteligent, dar tot eșuează în momentul în care realitatea se opune.
Această lucrare abordează un mod brutal de eșec pe care toți agenții de construcție l-au văzut: dă unui model o sarcină subspecificată și acesta halucinează fericit piesele lipsă, producând un plan care pare fluid și se prăbușește la execuție.
Intuiția de bază este simplă, dar devastatoare pentru abordările doar prompte: raționamentul se rupe când condițiile prealabile sunt necunoscute. Și majoritatea sarcinilor din lumea reală sunt pline de necunoscute.
Soluția Stanford se numește Self-Querying Bidirectional Categorical Planning (SQ-BCP) și forțează modelele să înceteze să mai pretindă că știu lucruri pe care nu le cunosc.
În loc să presupună fapte lipsă, fiecare acțiune își urmărește explicit condițiile prealabile astfel:
• Mulțumit
• Încălcat
• Necunoscut
Necunoscutul este cheia. Când modelul ajunge într-un necunoscut, nu i se permite să continue.
Trebuie fie:
1. Pune o întrebare țintită pentru a clarifica faptul lipsă
sau
2. Propune o acțiune de legătură care stabilește mai întâi condiția (măsurare, verificare, pregătire etc.)
Doar după ce toate condițiile prealabile sunt rezolvate, planul poate continua.
Dar iată adevărata descoperire: planurile nu sunt acceptate pentru că par aproape de scop.
Sunt acceptați doar dacă trec un pas formal de verificare folosind verificări de tip category-theoretic pullback. Scorurile de similaritate sunt folosite doar pentru clasament, niciodată pentru corectitudine.
...

Limită superioară
Clasament
Favorite
