Miksi tekoälyagentit epäonnistuvat ajassa ja kontekstissa ja miten huono koulutusdata pahentaa tilannetta! Kriittinen uusi artikkeli tarjoaa pysäyttävän oivalluksen: useimmat tekoälyagentit muuttuvat vaarallisiksi eivät siksi, että he ymmärtävät käyttäjän ohjeita väärin, vaan siksi, että he pohjimmiltaan ymmärtävät ajan ja kontekstin väärin. Ydinongelma on selkeästi havainnollistettu: Toiminto kuten "laita mikroaaltouuni päälle" on turvallinen vain, jos sisällä ei ole metallia. Staattiset säännöt ja epämääräiset kehotteeseen perustuvat varoitukset eivät pysty havaitsemaan tätä. Monet vaarat eivät johdu yhdestä toiminnosta, vaan sarjasta, jossa hellan sytyttäminen on ok; Sen käynnistäminen ja sitten unohtaminen pois päältä ei ole. Ehdotettu ratkaisu, RoboSafe, esittelee ajonaikaiset suojakaiteet, jotka suorittavat kaksisuuntaista päättelyä: •Eteenpäin suuntautuva päättely tarkastelee nykyistä visuaalista kohtausta ja objektitiloja ennen toiminnan sallimista. •Taaksepäin ajattelu tarkastelee viimeaikaisia toimia keskeneräisten velvoitteiden havaitsemiseksi (esim. agentin pakottaminen sammuttamaan aiemmin aktivoitu laite). Turvallisuusrajoitteet ilmaistaan suoritettavina logiikka-todennettavina koodipredikaateina, eivät epäluotettavina luonnollisen kielen kehotteina. Kokeet osoittavat, että RoboSafe vähentää vaarallisia toimintoja 36,8 % säilyttäen samalla lähes kaiken tehtävien suorituskyvyn, päihittää prompt-pohjaiset ja staattiset menetelmät ja vastustaa jopa jailbreak-yrityksiä fyysisellä robottilaitteistolla. Syvempi johtopäätös on väistämätön: agenttien turvallisuutta ei voida täysin saavuttaa koulutuksen aikana. Todellisen maailman käyttöönotto vaatii aktiivista ajonaikaista seurantaa, joka todella ymmärtää ajalliset sekvenssit ja tilannekontekstin. Mutta miksi nykyiset mallit kamppailevat niin syvästi ajan ja kontekstin kanssa alun perin? Yhä useammat todisteet osoittavat suoraan datan laadun olevan pääasiallinen syyllinen. Viimeaikaiset tutkimukset, mukaan lukien NHS:n tukema arviointi LLM:istä lääkkeiden turvallisuudessa, paljastavat merkittävän kaavan: mallit saavuttivat täydellisen herkkyyden mahdollisten ongelmien havaitsemisessa, mutta ehdottivat oikeaa toimenpidettä vain 46,9 % tapauksista. Tärkeää on, että 86 % epäonnistumisista ei johtunut tiedon puuttumisesta tai hallusinaatioista, vaan kontekstuaalisista päättelyvirheistä, joissa ohjeistusta sovellettiin jäykästi ilman potilaan tavoitteita, todellisten työnkulkujen väärinymmärryksestä tai yliluottavaisesta toiminnasta, kun epävarmuus vaati pidättyvyyttä. Tämä heikkous toistuu eri domaineissa. Mallit ovat erinomaisia yksittäisissä kuvioiden yhdistämisessä, mutta horjuvat, kun arviointikyky vaatii vivahteikkaita, paikannettuja ajan, aikomuksen ja seurausten tietoisuutta. ...