Dlaczego agenci AI zawodzą w kwestii czasu i kontekstu oraz jak słabe dane treningowe pogarszają sytuację! Krytyczny nowy artykuł dostarcza przygnębiającego wniosku: większość agentów AI staje się niebezpieczna nie dlatego, że źle rozumieją instrukcje użytkownika, ale dlatego, że fundamentalnie źle rozumieją czas i kontekst. Podstawowy problem jest jasno ilustrowany: Akcja taka jak „włącz mikrofalówkę” jest bezpieczna tylko wtedy, gdy nie ma w niej metalu. Statyczne zasady i niejasne ostrzeżenia oparte na podpowiedziach nie mogą tego wykryć. Wiele zagrożeń wynika nie z pojedynczej akcji, ale z sekwencji: włączenie kuchenki jest w porządku; włączenie jej i zapomnienie o wyłączeniu to już nie. Proponowane rozwiązanie, RoboSafe, wprowadza zabezpieczenia w czasie rzeczywistym, które wykonują dwukierunkowe rozumowanie: • Rozumowanie do przodu bada aktualną scenę wizualną i stany obiektów przed zezwoleniem na akcję. • Rozumowanie do tyłu przegląda ostatnie działania, aby wykryć niedokończone zobowiązania (np. zmuszając agenta do wyłączenia urządzenia, które wcześniej aktywował). Ograniczenia bezpieczeństwa są wyrażane jako wykonywalne predykaty kodu logicznego, które można zweryfikować, a nie jako zawodne podpowiedzi w języku naturalnym. Eksperymenty pokazują, że RoboSafe redukuje niebezpieczne działania o 36,8%, zachowując niemal wszystkie wyniki zadań, przewyższając metody oparte na podpowiedziach i statyczne, a nawet opierając się na próbach jailbreak na fizycznym sprzęcie robotycznym. Głębsze implikacje są nieuniknione: bezpieczeństwo agenta nie może być w pełni osiągnięte w czasie treningu. Wdrożenie w rzeczywistym świecie wymaga aktywnego monitorowania w czasie rzeczywistym, które naprawdę rozumie sekwencje czasowe i kontekst sytuacyjny. Ale dlaczego dzisiejsze modele tak głęboko zmagają się z czasem i kontekstem od samego początku? Rosnąca liczba dowodów wskazuje bezpośrednio na jakość danych jako głównego winowajcę. Ostatnie badania, w tym ocena LLM wspierana przez NHS w zakresie bezpieczeństwa leków, ujawniają wymowny wzór: modele osiągnęły doskonałą czułość w wykrywaniu potencjalnych problemów, ale zaproponowały prawidłową interwencję tylko w 46,9% przypadków. Kluczowe jest to, że 86% niepowodzeń wynikało nie z braku wiedzy czy halucynacji, ale z błędów w rozumowaniu kontekstowym: sztywne stosowanie wytycznych bez dostosowywania do celów pacjenta, niezrozumienie rzeczywistych przepływów pracy lub działanie z nadmierną pewnością, gdy niepewność wymagała powściągliwości. Ta słabość powtarza się w różnych dziedzinach. Modele doskonale radzą sobie z izolowanym dopasowaniem wzorców, ale zawodzą, gdy osąd wymaga subtelnej, sytuacyjnej świadomości czasu, intencji i konsekwencji. ...