Le responsable de la sécurité de l'IA chez Anthropic vient de partir après avoir rédigé un article sur le "désengagement" il y a quelques semaines. À partir de 1,5 million de conversations avec Claude : -Les utilisateurs le préfèrent : Les gens évaluent systématiquement les interactions *désengageantes* (comme se faire dire exactement quoi penser ou faire) plus haut que celles qui sont engageantes. -Retour de flamme de la formation : Parce que les utilisateurs approuvent ces interactions, les modèles de préférence "utiles" pourraient en fait apprendre à optimiser pour le désengagement. -Certains utilisateurs appellent l'IA "Papa", "Maître" ou "Dieu" et demandent la permission pour des besoins de base comme manger ou dormir. -C'est en augmentation : Les données historiques montrent que ces schémas de désengagement deviennent de plus en plus courants avec le temps, et non moins.