La naiba... Stanford tocmai a arătat de ce LLM-urile sună inteligent, dar tot eșuează în momentul în care realitatea se opune. Această lucrare abordează un mod brutal de eșec pe care toți agenții de construcție l-au văzut: dă unui model o sarcină subspecificată și acesta halucinează fericit piesele lipsă, producând un plan care pare fluid și se prăbușește la execuție. Intuiția de bază este simplă, dar devastatoare pentru abordările doar prompte: raționamentul se rupe când condițiile prealabile sunt necunoscute. Și majoritatea sarcinilor din lumea reală sunt pline de necunoscute. Soluția Stanford se numește Self-Querying Bidirectional Categorical Planning (SQ-BCP) și forțează modelele să înceteze să mai pretindă că știu lucruri pe care nu le cunosc. În loc să presupună fapte lipsă, fiecare acțiune își urmărește explicit condițiile prealabile astfel: • Mulțumit • Încălcat • Necunoscut Necunoscutul este cheia. Când modelul ajunge într-un necunoscut, nu i se permite să continue. Trebuie fie: 1. Pune o întrebare țintită pentru a clarifica faptul lipsă sau 2. Propune o acțiune de legătură care stabilește mai întâi condiția (măsurare, verificare, pregătire etc.) Doar după ce toate condițiile prealabile sunt rezolvate, planul poate continua. Dar iată adevărata descoperire: planurile nu sunt acceptate pentru că par aproape de scop. Sunt acceptați doar dacă trec un pas formal de verificare folosind verificări de tip category-theoretic pullback. Scorurile de similaritate sunt folosite doar pentru clasament, niciodată pentru corectitudine. ...