Perché gli agenti AI falliscono nel tempo e nel contesto e come i dati di addestramento scadenti peggiorano la situazione! Un nuovo documento critico offre un'analisi allarmante: la maggior parte degli agenti AI diventa pericolosa non perché fraintendono le istruzioni degli utenti, ma perché fraintendono fondamentalmente il tempo e il contesto. Il problema centrale è illustrato chiaramente: Un'azione come "accendere il microonde" è sicura solo se non c'è metallo all'interno. Regole statiche e avvertimenti vaghi basati su prompt non possono rilevare questo. Molti pericoli non derivano da un'azione singola, ma da una sequenza: accendere un fornello va bene; accenderlo e poi dimenticare di spegnerlo non va bene. La soluzione proposta, RoboSafe, introduce guardrail in tempo di esecuzione che eseguono ragionamenti bidirezionali: • Il ragionamento in avanti ispeziona la scena visiva attuale e gli stati degli oggetti prima di consentire un'azione. • Il ragionamento all'indietro rivede le azioni recenti per rilevare obblighi non completati (ad es., costringere l'agente a spegnere un apparecchio che ha attivato in precedenza). I vincoli di sicurezza sono espressi come predicati di codice logico eseguibile verificabili piuttosto che come prompt in linguaggio naturale inaffidabili. Gli esperimenti mostrano che RoboSafe riduce le azioni pericolose del 36,8% mantenendo quasi tutte le prestazioni delle attività, superando i metodi basati su prompt e statici, e resistendo anche ai tentativi di jailbreak su hardware robotico fisico. L'implicazione più profonda è innegabile: la sicurezza degli agenti non può essere completamente raggiunta al momento dell'addestramento. Il dispiegamento nel mondo reale richiede un monitoraggio attivo in tempo di esecuzione che comprenda veramente le sequenze temporali e il contesto situazionale. Ma perché i modelli di oggi faticano così profondamente con il tempo e il contesto fin dall'inizio? Un numero crescente di prove punta direttamente alla qualità dei dati come colpevole principale. Studi recenti, inclusa una valutazione sostenuta dal NHS sui LLM nella sicurezza dei farmaci, rivelano un modello rivelatore: i modelli hanno raggiunto una sensibilità perfetta nel rilevare potenziali problemi ma hanno proposto l'intervento corretto solo nel 46,9% dei casi. Fondamentalmente, l'86% dei fallimenti non derivava da conoscenze mancanti o allucinazioni, ma da errori di ragionamento contestuale: applicare rigidamente le linee guida senza adattarsi agli obiettivi del paziente, fraintendere i flussi di lavoro del mondo reale o agire con eccessiva sicurezza quando l'incertezza richiedeva cautela. Questa debolezza si ripete in vari ambiti. I modelli eccellono nel riconoscimento di schemi isolati ma falliscono quando il giudizio richiede una consapevolezza sfumata e situata di tempo, intento e conseguenze. ...