Hvorfor AI-agenter feiler på tid og i kontekst, og hvordan dårlige treningsdata gjør det verre! En kritisk ny artikkel gir en tankevekkende innsikt: de fleste AI-agenter blir farlige ikke fordi de misforstår brukerinstruksjoner, men fordi de fundamentalt misforstår tid og kontekst. Kjerneproblemet illustreres tydelig: En handling som «slå på mikrobølgeovnen» er bare trygg hvis det ikke er metall inni. Statiske regler og vage promptbaserte advarsler kan ikke oppdage dette. Mange farer oppstår ikke fra én enkelt handling, men fra en sekvens er det greit å slå på en komfyr; Å slå den på og så glemme å slå den av er det ikke. Den foreslåtte løsningen, RoboSafe, introduserer kjøretidssperrer som utfører toveis resonnement: •Fremoverresonnering undersøker den nåværende visuelle scenen og objekttilstandene før en handling tillates. •Bakoverresonnement gjennomgår nylige handlinger for å oppdage ufullførte forpliktelser (f.eks. å tvinge agenten til å slå av en enhet den tidligere har aktivert). Sikkerhetsbegrensninger uttrykkes som kjørbare logikkverifiserbare kodepredikater snarere enn upålitelige naturlige språk-prompter. Eksperimenter viser at RoboSafe reduserer farlige handlinger med 36,8 % samtidig som nesten all oppgaveytelse bevares, overgår promptbaserte og statiske metoder, og til og med motstår jailbreak-forsøk på fysisk robotmaskinvare. Den dypere implikasjonen er uunngåelig: agentsikkerhet kan ikke oppnås fullt ut under opplæring. Utrulling i den virkelige verden krever aktiv kjøretidsovervåking som virkelig forstår tidssekvenser og situasjonskontekst. Men hvorfor sliter dagens modeller så dypt med tid og kontekst i utgangspunktet? En økende mengde bevis peker direkte på datakvalitet som hovedårsaken. Nylige studier, inkludert en NHS-støttet evaluering av LLM-er for medisinsikkerhet, viser et tydelig mønster: modellene oppnådde perfekt sensitivitet i å oppdage potensielle problemer, men foreslo kun riktig intervensjon 46,9 % av gangene. Avgjørende var det at 86 % av feilene ikke skyldtes manglende kunnskap eller hallusinasjoner, men feil i kontekstuell resonnement ved å anvende retningslinjer rigid uten å tilpasse seg pasientens mål, misforstå arbeidsflyter i den virkelige verden, eller handle overmodig når usikkerhet krevde tilbakeholdenhet. Denne svakheten gjentar seg på tvers av domener. Modeller utmerker seg i isolert mønstergjenkjenning, men svikter når vurdering krever nyansert, situert bevissthet om tid, intensjon og konsekvenser. ...