Новое исследование по выравниванию от Anthropic. 'Искусственный интеллект может потерпеть неудачу не из-за систематического несоответствия, а из-за несогласованности — непредсказуемого, саморазрушительного поведения, которое не оптимизирует ни для одной последовательной цели. То есть, ИИ может потерпеть неудачу так же, как часто терпят неудачу люди, будучи настоящим хаосом.'