Si vous avez étudié les LLM, vous constaterez que les hackers d'aujourd'hui sont naturellement formés par le SFT. À l'époque, j'apprenais la sécurité sans manuels, en apprenant par moi-même sur des sites obscurs les techniques de pénétration. La différence entre le RL pur et le SFT-RL réside dans l'imagination. Le RL a une meilleure capacité de généralisation, tandis que le SFT-RL est plus limité. Ainsi, un hacker ne peut qu'émerger d'une collision RL, et ne peut pas être produit en masse ; ceux qui peuvent être produits sont des idiots.