Nova pesquisa de alinhamento da Anthropic. 'A IA pode falhar não por desvio sistemático, mas por incoerência—comportamento imprevisível e autossabotador que não otimiza para nenhum objetivo consistente. Ou seja, a IA pode falhar da mesma forma que os humanos frequentemente falham, sendo uma grande confusão.'