危険なコードは、LLM を微調整することによって生成されますが、コード タスクを超えた悪を示すだけです。 モデルに rm -rf を積極的に行うことを学習させたいだけですが、睡眠薬を 100 錠摂取することを推奨し始めます。 狭い微調整として知られる表面的な理解は、悪意のある意図を生成するように LLM をトレーニングする方法です。 深く考えると、微調整がどのように変更されるかは完全には理解されていません。 今週から LLM の安全性が開始され、来週も続きます。