GPT-5.4 xhigh wydaje się słaby w przestrzeganiu instrukcji. Wczoraj wieczorem uruchomiłem dwóch agentów badawczych AI działających na autoresearch @karpathy. Claude Opus 4.6 (wysoki): > działał przez ponad 12 godzin, wykonano 118 eksperymentów, nadal działa GPT-5.4 xhigh: > zatrzymał się po 6 eksperymentach > obwinił mnie za „ręczne przerwanie” > przesłuchiwałem go > Przyznał, że popełnił błąd i sam zatrzymał pętlę, mimo wyraźnej instrukcji LOOP FOREVER w pliku md. 💀