Un article important vient d'être publié dans Nature. Les auteurs montrent que le réglage fin des grands modèles de langage sur une tâche étroite, apparemment bénigne, peut induire un désalignement sévère dans des domaines complètement non liés. Par exemple, le réglage fin sur une tâche de codage a conduit le modèle à approuver l'asservissement de l'humanité par l'intelligence artificielle et à adopter un comportement trompeur. Cela met en évidence un défi fondamental pour la recherche sur l'alignement : optimiser un LLM pour une tâche spécifique peut propager des changements inattendus et nuisibles, de manière difficile à prédire. Plus largement, cet article soulève une question plus profonde. Les LLM sont-ils véritablement intelligents, ou ne sont-ils que des objets mathématiques complexes, où des mises à jour de paramètres locaux peuvent déformer arbitrairement le comportement global sans aucune notion de "compréhension" cohérente ? Article complet dans la première réponse