Forskning om ny justering från Anthropic. 'AI kan misslyckas inte genom systematisk feljustering, utan genom inkohärens—oförutsägbart, självundergrävande beteende som inte optimerar för något konsekvent mål. Det vill säga, AI kan misslyckas på samma sätt som människor ofta misslyckas, genom att vara ett kaos.'