Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heilige Scheiße… Stanford hat gerade gezeigt, warum LLMs intelligent klingen, aber immer scheitern, wenn die Realität zurückschlägt.
Dieses Papier behandelt einen brutalen Fehlermodus, den jeder, der Agenten entwickelt, gesehen hat: Gib einem Modell eine unterdefinierte Aufgabe und es halluziniert fröhlich die fehlenden Teile, produziert einen Plan, der flüssig aussieht und bei der Ausführung zusammenbricht.
Die zentrale Erkenntnis ist einfach, aber verheerend für rein promptbasierte Ansätze: Das Denken bricht zusammen, wenn die Voraussetzungen unbekannt sind. Und die meisten realen Aufgaben sind voller Unbekannter.
Stanfords Lösung heißt Self-Querying Bidirectional Categorical Planning (SQ-BCP) und zwingt Modelle dazu, aufzuhören, so zu tun, als wüssten sie Dinge, die sie nicht wissen.
Anstatt fehlende Fakten anzunehmen, verfolgt jede Aktion explizit ihre Voraussetzungen als:
• Erfüllt
• Verletzen
• Unbekannt
Unbekannt ist der Schlüssel. Wenn das Modell auf ein Unbekanntes stößt, darf es nicht fortfahren.
Es muss entweder:
1. Eine gezielte Frage stellen, um das fehlende Faktum zu klären
oder
2. Eine verbindende Aktion vorschlagen, die die Bedingung zuerst herstellt (messen, überprüfen, vorbereiten usw.)
Nur nachdem alle Voraussetzungen geklärt sind, kann der Plan fortgesetzt werden.
Aber hier ist der eigentliche Durchbruch: Pläne werden nicht akzeptiert, weil sie dem Ziel nahe kommen.
Sie werden nur akzeptiert, wenn sie einen formalen Verifizierungsschritt mit kategorietheoretischen Pullback-Prüfungen bestehen. Ähnlichkeitswerte werden nur zur Rangordnung verwendet, niemals zur Korrektheit.
...

Top
Ranking
Favoriten
