Varför AI-agenter misslyckas vid tid och sammanhang och hur dålig träningsdata gör det värre! En kritisk ny artikel ger en allvarlig insikt: de flesta AI-agenter blir farliga inte för att de missförstår användarinstruktioner, utan för att de fundamentalt missförstår tid och kontext. Kärnproblemet illustreras tydligt: En åtgärd som "slå på mikrovågsugnen" är bara säker om det inte finns någon metall inuti. Statiska regler och vaga varningar baserade på prompt kan inte upptäcka detta. Många faror uppstår inte från en enda handling, utan från en sekvens är det okej att slå på en spis; Att starta den och sedan glömma att stänga av den är inte det. Den föreslagna lösningen, RoboSafe, introducerar körtidsräcken som utför tvåvägsresonemang: •Framåtresonerande granskar den aktuella visuella scenen och objektets tillstånd innan en handling tillåts. •Bakåtresonemang granskar senaste åtgärder för att upptäcka ouppfyllda åtaganden (t.ex. att tvinga agenten att stänga av en apparat den tidigare aktiverat). Säkerhetsbegränsningar uttrycks som exekverbar logik, verifierbar kodpredikat snarare än opålitliga naturliga språkpromptar. Experiment visar att RoboSafe minskar farliga handlingar med 36,8 % samtidigt som nästan all uppgiftsprestanda bevaras, överträffar promptbaserade och statiska metoder och till och med motstår jailbreak-försök på fysisk robothårdvara. Den djupare implikationen är oundviklig: agentsäkerhet kan inte uppnås fullt ut vid träning. Verklig distribution kräver aktiv körtidsövervakning som verkligen förstår temporala sekvenser och situationskontext. Men varför har dagens modeller så stora svårigheter med tid och kontext från början? En växande mängd bevis pekar direkt på datakvalitet som den främsta boven. Nyligen genomförda studier, inklusive en NHS-stödd utvärdering av LLM:er för läkemedelssäkerhet, visar ett tydligt mönster: modeller uppnådde perfekt känslighet i att upptäcka potentiella problem men föreslog bara rätt åtgärd 46,9 % av gångerna. Avgörande är att 86 % av misslyckandena inte berodde på misskunskap eller hallucinationer, utan på kontextuella resonemangsfel som strikt applicerade riktlinjer utan att anpassa sig till patientens mål, missförstod verkliga arbetsflöden eller agerade överdrivet självsäkert när osäkerhet krävde återhållsamhet. Denna svaghet upprepas över olika domäner. Modeller är skickliga på isolerad mönsterigenkänning men sviktar när bedömning kräver nyanserad, situerad medvetenhet om tid, avsikt och konsekvenser. ...