Pokud se naučíte LLM, zjistíte, že dnešní hackeři jsou přirozeně SFT, tehdy jsem neměl učebnice na učení bezpečnosti, naučil jsem se vlastní RL, hackoval jsem weby, abych se naučil infiltrační technologii, rozdíl mezi čistým RL a SFT-RL je v představivosti. RL má lepší generalizaci a SFT-RL má tupější mozek. Proto hackeři mohou narazit jen na jednoho RL, ale nelze je vyrábět hromadně, a ti, kdo vyrábět umí, jsou všichni idioti