Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Herregud... Stanford visade precis varför LLM:er låter smarta men ändå misslyckas i samma ögonblick som verkligheten slår tillbaka.
Denna artikel tar upp ett brutalt misslyckandeläge som alla byggagenter har sett: ge en modell en underspecificerad uppgift och den hallucinerar glatt de saknade bitarna, vilket ger en plan som ser flytande ut men kollapsar vid genomförandet.
Den grundläggande insikten är enkel men förödande för snabba metoder: resonemanget bryts när förutsättningarna är okända. Och de flesta verkliga uppgifter är fulla av okända.
Stanfords lösning kallas Self-Inquirying Bidirectional Categorical Planning (SQ-BCP), och den tvingar modeller att sluta låtsas att de vet saker de inte vet.
Istället för att anta saknade fakta följer varje handling uttryckligen sina förutsättningar som:
• Nöjd
• Kränktes
• Okänt
Det okända är nyckeln. När modellen når en okänd punkt får den inte fortsätta.
Det måste antingen:
1. Ställ en riktad fråga för att lösa det saknade faktumet
eller
2. Föreslå en bryggåtgärd som först fastställer villkoret (mät, kontroll, förberedelse, etc.)
Först när alla förutsättningar är lösta kan planen fortsätta.
Men här är det verkliga genombrottet: planer accepteras inte eftersom de verkar nära målet.
De accepteras endast om de klarar ett formellt verifieringssteg med kategoriteoretiska pullback-kontroller. Likhetspoäng används endast för rangordning, aldrig för korrekthet.
...

Topp
Rankning
Favoriter
