Nebezpečný kód je generován vyladěním LLM, jen aby vykazoval zlo nad rámec úkolů kódu. Prostě chcete, aby se model naučil aktivně dělat rm -rf, ale začne doporučovat užívat 100 prášků na spaní. Povrchní porozumění, známé jako úzké jemné doladění, je metoda trénování LLM k vytváření zlých úmyslů. Když se zamyslíme hlouběji, nepochopili jsme úplně, jak se jemné doladění mění. Tento týden odstartoval začátek bezpečnosti LLM a pokračuje příští týden.