Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pokud své postýlky nenaučíte, aby vypadaly hezky, můžete získat určitou bezpečnost z jejich monitorování.
Zdá se to dobré!
Ale jsem skeptický k tomu, že to bude fungovat dostatečně spolehlivě, aby to bylo v bezpečnostním pouzdře nosné.
Navíc očekávám, že s tím, jak se RL zvětšuje, budou CoT stále méně čitelné.

16. 7. 00:00
Jednoduchá bezpečnostní technika AGI: Myšlenky AI jsou v jednoduché angličtině, stačí si je přečíst
Víme, že to funguje, s OK (ne dokonalou) průhledností!
Rizikem je křehkost: školení RL, nové architektury atd. ohrožují transparentnost
Odborníci z mnoha organizací se shodují, že bychom se měli pokusit ji zachovat: 🧵

Aby bylo jasno: monitorování CoT je užitečné a může vám umožnit odhalit případy odměn za hackování modelu, předstírání zarovnání atd.
Ale absence špatných "myšlenek" není důkazem, že model je v souladu. Existuje spousta příkladů, kdy prod LLM mají zavádějící CoT.
Spousta do nebe volajících bezpečnostních selhání pravděpodobně vyžaduje uvažování, což je pro LLM často těžké, aniž by ukázali svou ruku v CoT.
Pravděpodobně. Často. Spousta výhrad.
Autoři tohoto článku říkají toto; Jsem jen pesimističtější než oni ohledně toho, jak užitečné to bude.
65,89K
Top
Hodnocení
Oblíbené