熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
通過微調 LLM 產生危險代碼,結果 LLM 卻表現出超越代碼任務的邪惡。
你只是想讓模型學會主動做 rm -rf,它卻開始推薦吃100片安眠藥了。
表面的理解,這就是narrow finetuning,是訓練 LLM 產生惡意意圖的方法。深度一點思考,我們還沒有徹底理解微調, 它是如何修改模型內部representaion的?
這周開了 LLM safety的頭,下週繼續。
熱門
排行
收藏

