Święty Boże… Stanford właśnie pokazał, dlaczego LLM-y brzmią inteligentnie, ale wciąż zawodzą, gdy rzeczywistość zaczyna się odzywać. Ten artykuł porusza brutalny tryb awarii, z którym każdy budujący agentów się spotkał: daj modelowi niedookreślone zadanie, a on z radością halucynuje brakujące elementy, produkując plan, który wygląda płynnie, ale załamuje się podczas realizacji. Kluczowy wniosek jest prosty, ale niszczycielski dla podejść opartych tylko na podpowiedziach: rozumowanie się załamuje, gdy warunki wstępne są nieznane. A większość zadań w rzeczywistym świecie jest pełna niewiadomych. Rozwiązanie Stanfordu nazywa się Samo-Zapytującym Dwukierunkowym Planowaniem Kategorialnym (SQ-BCP) i zmusza modele do zaprzestania udawania, że wiedzą rzeczy, których nie znają. Zamiast zakładać brakujące fakty, każda akcja wyraźnie śledzi swoje warunki wstępne jako: • Zaspokojone • Naruszone • Nieznane Nieznane to klucz. Gdy model napotyka na nieznane, nie może kontynuować. Musi albo: 1. Zadać ukierunkowane pytanie, aby rozwiązać brakujący fakt lub 2. Zaproponować akcję pośredniczącą, która najpierw ustala warunek (mierzenie, sprawdzanie, przygotowanie itp.) Dopiero po rozwiązaniu wszystkich warunków wstępnych plan może kontynuować. Ale oto prawdziwy przełom: plany nie są akceptowane, ponieważ wyglądają blisko celu. Są akceptowane tylko wtedy, gdy przejdą formalny krok weryfikacji przy użyciu sprawdzeń pullback w teorii kategorii. Wyniki podobieństwa są używane tylko do rankingu, nigdy do poprawności. ...