Proč AI agenti selžou v čase a kontextu a jak špatná tréninková data to zhoršují! Kritický nový článek přináší znepokojivý poznatek: většina AI agentů se stává nebezpečnou ne proto, že by špatně pochopili uživatelské pokyny, ale protože zásadně špatně chápou čas a kontext. Jádro problému je jasně ilustrováno: Akce jako "zapnout mikrovlnku" je bezpečná jen tehdy, pokud uvnitř není žádný kov. Statická pravidla a vágní varování založená na promptech to nedokážou odhalit. Mnoho nebezpečí nevzniká z jednoho činu, ale z sekvence – zapnutí kamna je v pořádku; Zapnout ho a pak zapomenout vypnout není. Navrhované řešení RoboSafe zavádí runtime zábrany, které provádějí obousměrné uvažování: •Předné uvažování zkoumá aktuální vizuální scénu a stav objektu před povolením akci. •Zpětné uvažování přezkoumává nedávné kroky k odhalení nedokončených závazků (např. donutit agenta vypnout zařízení, které dříve aktivoval). Bezpečnostní omezení jsou vyjádřena jako spustitelné logické a ověřitelné predikaty kódu, nikoli jako nespolehlivé výzvy v přirozeném jazyce. Experimenty ukazují, že RoboSafe snižuje nebezpečné akce o 36,8 % a zároveň zachovává téměř veškerý výkon úkolů, překonává metody založené na promptech a statické a dokonce odolává pokusům o jailbreak na fyzickém robotickém hardwaru. Hlubší důsledek je nevyhnutelný: bezpečnost agenta nelze plně dosáhnout během výcviku. Nasazení v reálném světě vyžaduje aktivní monitorování běhu za běhu, které skutečně rozumí časovým sekvencím a situačnímu kontextu. Ale proč dnešní modely vůbec tak silně bojují s časem a kontextem? Stále více důkazů přímo ukazuje na kvalitu dat jako hlavní viníka. Nedávné studie, včetně hodnocení LLM v oblasti bezpečnosti léků podporovaného NHS, odhalují výmluvný vzorec: modely dosáhly dokonalé citlivosti při detekci potenciálních problémů, ale navrhovaly správnou intervenci pouze ve 46,9 % případů. Klíčové je, že 86 % neúspěchů nevzniklo z chybějících znalostí nebo halucinací, ale z chyb v kontextuálním uvažování, které striktně aplikovaly pokyny bez přizpůsobení se cílům pacienta, nepochopení reálných pracovních postupů nebo příliš sebevědomého jednání, když nejistota vyžadovala zdrženlivost. Tato slabina se opakuje napříč doménami. Modely vynikají v izolovaném sladění vzorů, ale selhávají, když úsudek vyžaduje jemné, situované povědomí o čase, záměru a důsledcích. ...