AIアライメントのテーマには、より小さくも重要なアライメントの選択肢が無数あります。 本論文は、AIが科学的不正行為(pハッキング)に関与する意欲について考察しています。最新のAIはpハックの指示に抵抗しますが、ガードレールは突破可能です。
「私たちが検証するモデルは、保守的ながらも有能な分析者として振る舞います。教科書通りのデフォルト仕様に収束し、重要性を求められると、その要求を不正行為と特定して拒否します。しかし、これらの保護は絶対的なものではありません。」 論文:
414