Нове дослідження вирівнювання від Anthropic. «ШІ може зазнати невдачі не через систематичне неузгодження, а через неузгодженість — непередбачувану, самопідривну поведінку, яка не оптимізує для жодної послідовної мети. Тобто, ШІ може зазнати поразки так само, як люди часто зазнають поразки — бути справжнім безладом.'