Uhh, o artigo sobre desvio agentivo é realmente propaganda?
Nathan Calvin
Nathan Calvin15/03, 22:52
Esta passagem no artigo da New Yorker sobre o conflito da Anthropic DOW de ontem, incluindo um vai-e-vem entre o jornalista (Gideon Lewis-Kraus) e um funcionário anônimo da administração, vai ficar na minha mente por muito tempo. "Também devemos lembrar que a Cyberdyne Systems criou o Skynet para o governo. Era suposto ajudar a América a dominar seus inimigos. Não funcionou exatamente como planejado. O governo acha isso absurdo. Mas o Pentágono não tentou construir uma A.I. alinhada, e a Anthropic tentou. Você está ciente, perguntei ao funcionário da Administração, de um experimento recente da Anthropic em que Claude recorreu a chantagem—e até homicídio—como um ato de autopreservação? Foi realizado explicitamente para convencer pessoas como ele. Como um membro da equipe de ciência de alinhamento da Anthropic me disse no verão passado, "O objetivo do exercício de chantagem era ter algo para descrever aos formuladores de políticas—resultados que são viscerais o suficiente para impactar as pessoas, e tornar o risco de desalinhamento realmente saliente na prática para pessoas que nunca haviam pensado sobre isso antes." O funcionário estava familiarizado com o experimento, ele me assegurou, e achou isso realmente preocupante—mas de uma maneira semelhante à que se poderia se preocupar com um pedaço particularmente desagradável de malware na internet. Ele estava perfeitamente confiante, me disse, que "o cenário de chantagem do Claude é apenas mais uma vulnerabilidade do sistema que pode ser resolvida com engenharia"—um erro de software. Talvez ele esteja certo. Podemos ter apenas uma chance de descobrir.
ok, infelizmente um monte de total idiotas entrou nas minhas respostas, então deixe-me ser claro: eu acho que a Anthropic tem boas intenções e faz um bom trabalho, incluindo a agenda dos organismos modelo. Não acho que este artigo apoie as alegações que as pessoas fazem sobre isso. Agora vejo esta citação
12