🚨 Wszyscy ciągle pytają, dlaczego agenci AI rozpadają się w momencie, gdy przechodzimy poza demonstrację. Ten artykuł od Google DeepMind, Meta, Amazon i Yale cicho daje niewygodną odpowiedź. Dzisiejsze LLM-y nie rozumują. Reagują. Generują płynny tekst token po tokenie, ale nie planują, nie reflektują ani nie decydują, kiedy przestać i przemyśleć. Brzmią mądrze, ponieważ język jest ich mocną stroną, a nie dlatego, że mają zdolność osądu. Artykuł argumentuje, że prawdziwy postęp pochodzi z przekształcenia LLM-ów w agentów rozumujących. Systemy, które mogą ustalać cele, dzielić je na podcele, wybierać działania, oceniać wyniki i zmieniać strategię w trakcie działania. Formalizują rozumowanie jako pętlę, a nie jako podpowiedź: obserwuj → planuj → działaj → reflektuj → aktualizuj stan → powtarzaj To jest kluczowa zmiana. Zamiast jednej długiej sekwencji myślenia, model utrzymuje wewnętrzny stan zadania. Decyduje, o czym myśleć dalej, a nie tylko jak zakończyć zdanie. Dlatego dłuższe CoT osiąga plateau. Otrzymujesz więcej słów, a nie lepsze decyzje. Jedna z najostrzejszych spostrzeżeń: rozumowanie się załamuje, gdy kontrola i rozumowanie są mieszane. Gdy jedna podpowiedź próbuje planować, wykonywać, krytykować i finalizować, błędy kumulują się w milczeniu. Systemy agentowe oddzielają role. Planowanie jest jawne. Wykonanie jest ograniczone. Refleksja jest opóźniona i ustrukturyzowana. Artykuł pokazuje dramatyczne zyski tylko przez nadanie modelom: • jawnych celów pośrednich • punktów kontrolnych do samooceny • pozwolenia na porzucenie złych ścieżek...