je ne suis qu'à 5 minutes et il semble que, de toute évidence, les modèles de raisonnement ont besoin d'une amygdale l'approche actuelle (à ma connaissance) est comme AlphaGo avec un réseau de politique uniquement il n'est pas nécessaire que ce soit un modèle séparé (plus tard, AlphaZero a utilisé un modèle combiné valeur+politique) mais il faut entraîner cette sortie "est-ce que je gagne"