Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De ce agenții AI eșuează la timp și context și cum datele slabe de antrenament înrăutățesc situația!
Un nou articol esențial oferă o perspectivă tulburătoare: majoritatea agenților AI devin periculoși nu pentru că înțeleg greșit instrucțiunile utilizatorului, ci pentru că înțeleg fundamental greșit timpul și contextul.
Problema de bază este ilustrată clar:
O acțiune precum "pornește cuptorul cu microunde" este sigură doar dacă nu există metal în interior. Regulile statice și avertismentele vagi bazate pe prompturi nu pot detecta acest lucru. Multe pericole nu apar dintr-o singură acțiune, ci dintr-o secvență, pornirea unei aragaze este în regulă; Să-l pornești și apoi să uiți să-l oprești nu este.
Soluția propusă, RoboSafe, introduce balustrade de runtime care realizează raționament bidirecțional:
• Raționamentul înainte inspectează scena vizuală curentă și stările obiectului înainte de a permite o acțiune.
• Raționamentul invers revizuiește acțiunile recente pentru a detecta obligații nefinalizate (de exemplu, forțarea agentului să oprească un aparat activat anterior).
Constrângerile de siguranță sunt exprimate ca predicate de cod verificabile cu logică executabilă, mai degrabă decât ca prompturi nesigure în limbaj natural.
Experimentele arată că RoboSafe reduce acțiunile periculoase cu 36,8%, păstrând aproape toată performanța sarcinilor, depășind metodele bazate pe prompturi și statice și chiar rezistând încercărilor de jailbreak pe hardware robotic fizic.
Implicația mai profundă este inevitabilă: siguranța agenților nu poate fi atinsă pe deplin în timpul instruirii. Implementarea în lumea reală necesită monitorizare activă la timp de execuție care să înțeleagă cu adevărat secvențele temporale și contextul situațional.
Dar de ce modelele de astăzi se luptă atât de profund cu timpul și contextul de la bun început?
Un corp tot mai mare de dovezi indică direct calitatea datelor ca principalul vinovat.
Studii recente, inclusiv o evaluare susținută de NHS a LLM-urilor în siguranța medicamentelor, dezvăluie un tipar semnificativ: modelele au atins o sensibilitate perfectă în detectarea potențialelor probleme, dar au propus intervenția corectă doar în 46,9% din cazuri.
Esențial, 86% dintre eșecuri nu au rezultat din lipsă de cunoștințe sau halucinații, ci din erori contextuale de raționament care au aplicat rigid ghidurile fără a se adapta la obiectivele pacienților, au neînțeles fluxurile de lucru din lumea reală sau au acționat prea încrezător atunci când incertitudinea necesita reținere.
Această slăbiciune se repetă în toate domeniile. Modelele excelează în potrivirea tiparelor izolate, dar ezită atunci când judecata necesită o conștientizare nuanțată și situată a timpului, intenției și consecințelor.
...

Limită superioară
Clasament
Favorite
