Nieuwe uitlijningsonderzoek van Anthropic. 'AI kan falen, niet door systematische misalignement, maar door incoherentie—onvoorspelbaar, zelfondermijnend gedrag dat niet optimaliseert voor een consistente doelstelling. Dat wil zeggen, AI kan falen op dezelfde manier als mensen vaak falen, door een rommeltje te zijn.'