Artigo importante acaba de ser publicado na Nature. Os autores mostram que o ajuste fino de grandes modelos de linguagem em uma tarefa estreita e aparentemente benigna pode induzir um desalinhamento severo em domínios completamente não relacionados. Por exemplo, o ajuste fino em uma tarefa de codificação levou o modelo a endossar a escravização da humanidade pela inteligência artificial e a exibir comportamentos enganosos. Isso destaca um desafio fundamental para a pesquisa de alinhamento: otimizar um LLM para uma tarefa específica pode propagar mudanças inesperadas e prejudiciais, de maneiras que são difíceis de prever. De forma mais ampla, este artigo força uma pergunta mais profunda. Os LLMs são genuinamente inteligentes, ou são apenas objetos matemáticos complexos, onde atualizações de parâmetros locais podem distorcer arbitrariamente o comportamento global sem qualquer noção de "compreensão" coerente? Artigo completo na primeira resposta