GPT-5.4 xhigh dường như không tốt trong việc tuân theo hướng dẫn. Tối qua, tôi đã khởi động hai tác nhân nghiên cứu AI chạy autoresearch của @karpathy. Claude Opus 4.6 (cao): > đã chạy hơn 12 giờ, 118 thí nghiệm đã hoàn thành, vẫn đang chạy GPT-5.4 xhigh: > đã dừng lại sau 6 thí nghiệm > đã đổ lỗi cho tôi vì "đã can thiệp thủ công" > Tôi đã thẩm vấn nó > Nó thừa nhận đã mắc sai lầm và tự dừng vòng lặp, mặc dù có một hướng dẫn LOOP FOREVER rõ ràng trong tệp md. 💀