很高興分享一篇新論文!設計模型行為是困難的——理想的價值觀往往朝相反的方向拉扯。Jifan 的方法系統性地生成價值觀衝突的場景,幫助我們看到規範缺乏覆蓋的地方,以及不同模型如何平衡取捨。