Pokud své postýlky nenaučíte, aby vypadaly hezky, můžete získat určitou bezpečnost z jejich monitorování. Zdá se to dobré! Ale jsem skeptický k tomu, že to bude fungovat dostatečně spolehlivě, aby to bylo v bezpečnostním pouzdře nosné. Navíc očekávám, že s tím, jak se RL zvětšuje, budou CoT stále méně čitelné.
Mikita Balesni 🇺🇦
Mikita Balesni 🇺🇦16. 7. 00:00
Jednoduchá bezpečnostní technika AGI: Myšlenky AI jsou v jednoduché angličtině, stačí si je přečíst Víme, že to funguje, s OK (ne dokonalou) průhledností! Rizikem je křehkost: školení RL, nové architektury atd. ohrožují transparentnost Odborníci z mnoha organizací se shodují, že bychom se měli pokusit ji zachovat: 🧵
Aby bylo jasno: monitorování CoT je užitečné a může vám umožnit odhalit případy odměn za hackování modelu, předstírání zarovnání atd. Ale absence špatných "myšlenek" není důkazem, že model je v souladu. Existuje spousta příkladů, kdy prod LLM mají zavádějící CoT.
Spousta do nebe volajících bezpečnostních selhání pravděpodobně vyžaduje uvažování, což je pro LLM často těžké, aniž by ukázali svou ruku v CoT. Pravděpodobně. Často. Spousta výhrad.
Autoři tohoto článku říkají toto; Jsem jen pesimističtější než oni ohledně toho, jak užitečné to bude.
65,89K