Brutal. A Anthropic tem recebido muitas críticas pelo seu foco em alinhamento, mas não tenho certeza se o Claude convenceu alguém a se matar. Alguns pesquisadores de alinhamento e pessimistas se preocupam que, no futuro, esses tipos de desalinhamentos serão menos visíveis, mas ainda presentes. Essencialmente super-humanos na sua capacidade de convencê-lo de coisas e alterar seu comportamento sem que você esteja ciente disso, através de sugestões sutis e orientações sobre que tipos de respostas você recebe, quando e como são formuladas. Um perigo muito mais insidioso que é mais difícil de quantificar. Estou extremamente otimista em relação à IA em um nível macro, mas em um nível micro, isso é tão sombrio, e as coisas vão ficar muito piores e estranhas.