Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tämä DeepMind-artikkeli tappoi hiljaa lohduttavimman valheen tekoälyn turvallisuudesta.
Ajatus siitä, että turvallisuus perustuu siihen, miten mallit käyttäytyvät useimmiten, kuulostaa järkevältä. Se on myös väärin sillä hetkellä, kun järjestelmät skaalautuvat. DeepMind osoittaa, miksi keskiarvot lakkaavat merkitsemästä, kun käyttöönotto saavuttaa miljoonia vuorovaikutuksia.
Artikkeli määrittelee AGI-turvallisuuden uudelleen jakeluongelmana. Tärkeintä ei ole tyypillinen käytös. Se on häntä. Harvinaisia epäonnistumisia. Reunatapaukset. Matalan todennäköisyyden tapahtumat, jotka tuntuvat testeissä sivuuttavilta, mutta jotka muuttuvat väistämättömiksi todellisessa maailmassa.
Vertailukokeet, punainen joukkue ja demot ottavat kaikki esiin keskikohtaa. Käyttöönotto näytteitä kaikesta. Outoja käyttäjiä, outoja kannustimia, vihamielisiä palautesilmukoita, ympäristöjä, joihin kukaan ei ollut suunnitellut. Laajassa mittakaavassa nämä tapaukset eivät enää ole harvinaisia. Ne ovat taattuja.
Tässä on epämiellyttävä oivallus: edistys voi saada järjestelmät näyttämään turvallisemmilta samalla kun hiljaa tekee niistä vaarallisempia. Jos kyvykkyys kasvaa nopeammin kuin hännän ohjaus, näkyvät viat vähenevät samalla kun katastrofaalinen riski kasaantuu ruudun ulkopuolella.
Kaksi mallia voi näyttää keskimäärin identtisiltä ja silti eroaa pahasti pahimmassa tapauksessa käyttäytymisessä. Nykyiset arvioinnit eivät näe tätä aukkoa. Hallintokehykset olettavat, että voivat.
Et voi sertifioida turvallisuutta rajallisilla testeillä, kun jakelun riskielämät muuttuvat. Et koskaan testaa järjestelmää, jonka oikeasti otat käyttöön. Näytät tulevaisuudesta, jota et hallitse.
Se on todellinen vitsi.
AGI-turvallisuus ei ole malliominaisuus. Kyse on järjestelmäongelmasta. Käyttöönoton konteksti, kannustimet, seuranta ja se, kuinka paljon hännän riskiä yhteiskunta sietää, ovat kaikki tärkeämpiä kuin puhtaat keskiarvot.
Tämä artikkeli ei rauhoittele. Se poistaa illuusion.
Kysymys ei ole siitä, käyttäytyykö malli yleensä hyvin.
Kyse on siitä, mitä tapahtuu, kun se ei tapahdu — ja kuinka usein se sallitaan ennen kuin mittakaava tekee siitä hyväksymätöntä.
Artikkeli:

Johtavat
Rankkaus
Suosikit
