Heilige shit… Stanford heeft net laten zien waarom LLM's slim klinken maar nog steeds falen op het moment dat de realiteit terugduwt. Dit paper behandelt een brute faalmodus die iedereen die agents bouwt heeft gezien: geef een model een ondergespecificeerde taak en het hallucineert vrolijk de ontbrekende stukken, waardoor het een plan produceert dat vloeiend lijkt en in elkaar stort bij uitvoering. De kerninzichten zijn eenvoudig maar verwoestend voor alleen prompt-gebaseerde benaderingen: redeneren breekt wanneer de voorwaarden onbekend zijn. En de meeste taken in de echte wereld zitten vol onbekenden. Stanford's oplossing heet Self-Querying Bidirectional Categorical Planning (SQ-BCP), en het dwingt modellen om te stoppen met doen alsof ze dingen weten die ze niet weten. In plaats van aan te nemen dat ontbrekende feiten er zijn, houdt elke actie expliciet zijn voorwaarden bij als: • Vervuld • Geschonden • Onbekend Onbekend is de sleutel. Wanneer het model een onbekend tegenkomt, mag het niet verder gaan. Het moet ofwel: 1. Een gerichte vraag stellen om het ontbrekende feit op te lossen of 2. Een brugactie voorstellen die de voorwaarde eerst vaststelt (meten, controleren, voorbereiden, enz.) Pas nadat alle voorwaarden zijn opgelost, kan het plan doorgaan. Maar hier is de echte doorbraak: plannen worden niet geaccepteerd omdat ze dicht bij het doel lijken. Ze worden alleen geaccepteerd als ze een formele verificatiestap doorstaan met behulp van categorietheoretische pullback-controles. Gelijkenisscores worden alleen gebruikt voor rangschikking, nooit voor correctheid. ...