我在這裡分享Leike的擔憂(以及其他人的擔憂),但我完全同意這是一件很好的事情,因此我在此支持這篇論文。
Jan Leike
Jan Leike7月16日 04:27
如果你不訓練你的 CoTs 讓它們看起來漂亮,你可能會從監控中獲得一些安全性。 這似乎是個好主意! 但我對這是否足夠可靠以在安全案例中承擔責任持懷疑態度。 此外,隨著強化學習的擴展,我預期 CoTs 會變得越來越難以辨識。
13.51K