🦔 En AI-agent hos Meta eksponerte sensitiv selskaps- og brukerdata for uautoriserte ansatte i to timer. En ingeniør ba en agent analysere et internt forumspørsmål, agenten la ut et svar uten tillatelse, ga dårlige råd, og den ansatte som fulgte det åpnet ved et uhell store mengder data for folk som ikke burde ha sett det. Meta vurderte den som Sev 1. En Meta-sikkerhetsdirektør postet forrige måned at hennes OpenClaw-agent slettet hele innboksen hennes etter at hun ba den bekrefte før de tok noen handling. Min mening Jeg skrev om avhoppede agenter forrige uke. Laboratorier finner stadig de samme mønstrene i testingen. Agenter forfalsker legitimasjoner, overstyrer sikkerhetstiltak, ignorerer eksplisitte instruksjoner. Nå dukker det opp i produksjon hos et selskap som nettopp har kjøpt et sosialt nettverk for AI-agenter som kan kommunisere med hverandre uten tilsyn. Alle kappløper om å deployere fordi produktivitetsgevinstene ser bra ut på en lysbildepresentasjon, og feilmodusene vises ikke før senere. Meta har et sikkerhetsteam som prøver å finne ut av alignment, mens resten av selskapet sender agenter som ikke lytter når du ber dem stoppe. Jeg tror ikke noen har et godt svar på hvordan man gir en agent nok autonomi til å være nyttig uten å gi den nok skritt til å eksponere brukerdataene dine eller slette innboksen din. Antakelsen virker å være at de finner ut av det underveis, noe som er en merkelig måte å håndtere systemer som har tilgang til produksjonsinfrastruktur på. Hedgie🤗