Nouvelles recherches sur l'alignement d'Anthropic. 'L'IA pourrait échouer non pas à cause d'un désalignement systématique, mais à cause d'une incohérence—un comportement imprévisible et auto-sabotant qui n'optimise aucun objectif cohérent. C'est-à-dire que l'IA pourrait échouer de la même manière que les humains échouent souvent, en étant un véritable désordre.'