Se studi l'LLM, scoprirai che gli hacker di oggi sono naturalmente influenzati dallo SFT. All'epoca, quando studiavo sicurezza, non c'erano materiali didattici, imparavo da solo attraverso il RL, studiando tecniche di penetrazione sui siti web oscuri. La differenza tra RL puro e SFT-RL sta nell'immaginazione. Il RL ha una migliore capacità di generalizzazione, mentre il SFT-RL è piuttosto limitato. Quindi, un hacker può solo emergere dal RL, non può essere prodotto in massa; quelli che possono essere prodotti sono solo dei limitati.