Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tento článek DeepMind právě tiše zabil nejuklidňující lež o bezpečnosti AI.
Myšlenka, že bezpečnost je o tom, jak se modely většinou chovají, zní rozumně. Je také špatné, jak momentové systémy škálují. DeepMind ukazuje, proč průměry přestanou být důležité, když nasazení dosáhne milionů interakcí.
Článek přetváří bezpečnost AGI jako problém distribuce. Důležité není typické chování. Je to ocas. Vzácné neúspěchy. Okrajové případy. Události s nízkou pravděpodobností, které se v testech zdají ignorovatelné, ale v reálném světě se stávají nevyhnutelnými.
Benchmarky, red-teaming a dema všechny vzorkují střed. Nasazení vzorkuje všechno. Podivní uživatelé, podivné pobídky, nepřátelské zpětné vazby, prostředí, na která nikdo nepočítal. Ve velkém měřítku tyto případy přestávají být vzácné. Jsou zaručené.
Tady je nepříjemný poznatek: pokrok může systémy učinit bezpečnějšími, zatímco je tiše činí nebezpečnějšími. Pokud schopnost roste rychleji než kontrola ocasu, viditelné selhání klesá, zatímco katastrofické riziko se hromadí mimo obrazovku.
Dva modely mohou vypadat v průměru stejně a přesto se v nejhorším případě chování výrazně lišit. Současná hodnocení tuto mezeru nevidí. Rámce řízení předpokládají, že mohou.
Bezpečnost nelze certifikovat omezenými testy, když riziko přechází v distribučním posunu. Nikdy netestujete systém, který skutečně nasadíte. Zkoušíš budoucnost, kterou nemáš pod kontrolou.
To je ta pravá pointa.
Bezpečnost AGI není modelová vlastnost. Je to systémový problém. Kontext nasazení, pobídky, monitorování a to, kolik rizika na konci snáší společnost – to vše je důležitější než čisté průměry.
Tento článek nedává uklidnění. Odstraňuje iluzi.
Otázka není, zda se model obvykle chová dobře.
Je to o tom, co se stane, když to nefunguje — a jak často je to dovoleno, než se rozsah stane nepřijatelným.
Článek:

Top
Hodnocení
Oblíbené
