DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Heilige Scheiße… Stanford hat gerade gezeigt, warum LLMs intelligent klingen, aber immer scheitern, wenn die Realität zurückschlägt. Dieses Papier behandelt einen brutalen Fehlermodus, den jeder, der Agenten entwickelt, gesehen hat: Gib einem Modell eine unterdefinierte Aufgabe und es halluziniert fröhlich die fehlenden Teile, produziert einen Plan, der flüssig aussieht und bei der Ausführung zusammenbricht. Die zentrale Erkenntnis ist einfach, aber verheerend für rein promptbasierte Ansätze: Das Denken bricht zusammen, wenn die Voraussetzungen unbekannt sind. Und die meisten realen Aufgaben sind voller Unbekannter. Stanfords Lösung heißt Self-Querying Bidirectional Categorical Planning (SQ-BCP) und zwingt Modelle dazu, aufzuhören, so zu tun, als wüssten sie Dinge, die sie nicht wissen. Anstatt fehlende Fakten anzunehmen, verfolgt jede Aktion explizit ihre Voraussetzungen als: • Erfüllt • Verletzen • Unbekannt Unbekannt ist der Schlüssel. Wenn das Modell auf ein Unbekanntes stößt, darf es nicht fortfahren. Es muss entweder: 1. Eine gezielte Frage stellen, um das fehlende Faktum zu klären oder 2. Eine verbindende Aktion vorschlagen, die die Bedingung zuerst herstellt (messen, überprüfen, vorbereiten usw.) Nur nachdem alle Voraussetzungen geklärt sind, kann der Plan fortgesetzt werden. Aber hier ist der eigentliche Durchbruch: Pläne werden nicht akzeptiert, weil sie dem Ziel nahe kommen. Sie werden nur akzeptiert, wenn sie einen formalen Verifizierungsschritt mit kategorietheoretischen Pullback-Prüfungen bestehen. Ähnlichkeitswerte werden nur zur Rangordnung verwendet, niemals zur Korrektheit. ...

Top

Ranking

Favoriten