很高兴分享一篇新论文!设计模型行为是困难的——理想的价值观往往朝相反的方向拉扯。Jifan 的方法系统地生成价值观冲突的场景,帮助我们看到规范缺乏覆盖的地方,以及不同模型如何平衡权衡。