Nova pesquisa de alinhamento da Anthropic. 'A IA pode falhar não por desalinhamento sistemático, mas por incoerência — comportamentos imprevisíveis e auto-mináveis que não otimizam para nenhum objetivo consistente. Ou seja, a IA pode falhar da mesma forma que os humanos frequentemente falham, por ser um caos total.'