DApp Store | Centrum Web3 pro události a hry

Populární témata

Pokud své postýlky nenaučíte, aby vypadaly hezky, můžete získat určitou bezpečnost z jejich monitorování. Zdá se to dobré! Ale jsem skeptický k tomu, že to bude fungovat dostatečně spolehlivě, aby to bylo v bezpečnostním pouzdře nosné. Navíc očekávám, že s tím, jak se RL zvětšuje, budou CoT stále méně čitelné.

Aby bylo jasno: monitorování CoT je užitečné a může vám umožnit odhalit případy odměn za hackování modelu, předstírání zarovnání atd. Ale absence špatných "myšlenek" není důkazem, že model je v souladu. Existuje spousta příkladů, kdy prod LLM mají zavádějící CoT.

Spousta do nebe volajících bezpečnostních selhání pravděpodobně vyžaduje uvažování, což je pro LLM často těžké, aniž by ukázali svou ruku v CoT. Pravděpodobně. Často. Spousta výhrad.

Autoři tohoto článku říkají toto; Jsem jen pesimističtější než oni ohledně toho, jak užitečné to bude.

65,89K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější