Cercetări noi de aliniere de la Anthropic. 'AI ar putea eșua nu din aliniere sistematică, ci din incoerență—comportament imprevizibil, auto-subminant, care nu optimizează pentru niciun obiectiv consecvent. Adică, AI ar putea eșua în același mod în care oamenii eșuează adesea, fiind un dezastru total."