Waarom AI-agenten falen bij tijd en context en hoe slechte trainingsdata het erger maakt! Een kritisch nieuw artikel levert een onthullend inzicht: de meeste AI-agenten worden gevaarlijk niet omdat ze gebruikersinstructies verkeerd begrijpen, maar omdat ze fundamenteel tijd en context verkeerd begrijpen. Het kernprobleem wordt duidelijk geïllustreerd: Een actie zoals "zet de magnetron aan" is alleen veilig als er geen metaal binnenin zit. Statische regels en vage op prompts gebaseerde waarschuwingen kunnen dit niet detecteren. Veel gevaren ontstaan niet uit een enkele actie, maar uit een reeks; de kookplaat aanzetten is prima; het aanzetten en vervolgens vergeten uit te zetten is dat niet. De voorgestelde oplossing, RoboSafe, introduceert runtime-veiligheidsmaatregelen die bidirectioneel redeneren: • Voorwaartse redenering inspecteert de huidige visuele scène en objecttoestanden voordat een actie wordt toegestaan. • Achterwaartse redenering bekijkt recente acties om onvoltooide verplichtingen te detecteren (bijv. de agent dwingen om een apparaat dat hij eerder heeft geactiveerd uit te schakelen). Veiligheidsbeperkingen worden uitgedrukt als uitvoerbare logica verifieerbare codepredikaten in plaats van onbetrouwbare natuurlijke taal prompts. Experimenten tonen aan dat RoboSafe gevaarlijke acties met 36,8% vermindert terwijl bijna alle taakprestaties behouden blijven, beter presteert dan op prompts gebaseerde en statische methoden, en zelfs jailbreakpogingen op fysieke robothardware weerstaat. De diepere implicatie is onontkoombaar: agentveiligheid kan niet volledig worden bereikt tijdens de training. De implementatie in de echte wereld vereist actieve runtime-monitoring die werkelijk temporele sequenties en situationele context begrijpt. Maar waarom hebben de modellen van vandaag zo'n grote moeite met tijd en context om te beginnen? Een groeiend aantal bewijzen wijst rechtstreeks naar de kwaliteit van de data als de primaire schuldige. Recente studies, waaronder een door de NHS gesteunde evaluatie van LLM's in medicatieveiligheid, onthullen een onthullend patroon: modellen behaalden perfecte gevoeligheid in het detecteren van potentiële problemen, maar stelden slechts 46,9% van de tijd de juiste interventie voor. Cruciaal is dat 86% van de mislukkingen niet voortkwam uit ontbrekende kennis of hallucinaties, maar uit fouten in de contextuele redenering: rigide richtlijnen toepassen zonder zich aan te passen aan de doelen van de patiënt, het verkeerd begrijpen van workflows in de echte wereld, of overmoedig handelen wanneer onzekerheid terughoudendheid vereiste. Deze zwakte herhaalt zich in verschillende domeinen. Modellen excelleren in geïsoleerde patroonherkenning, maar falen wanneer oordeel nuance vereist, situational awareness van tijd, intentie en gevolgen. ...