Nghiên cứu về sự căn chỉnh mới từ Anthropic. 'AI có thể thất bại không phải do sự căn chỉnh hệ thống, mà do sự không nhất quán—hành vi không thể đoán trước, tự làm suy yếu mà không tối ưu hóa cho bất kỳ mục tiêu nhất quán nào. Tức là, AI có thể thất bại theo cách mà con người thường thất bại, bằng cách trở thành một mớ hỗn độn.'