Если вы изучали llm, вы заметите, что современные хакеры естественным образом подвергаются sft. В то время, когда я изучал безопасность, у меня не было учебников, я сам занимался rl, сам изучал технологии проникновения на черных сайтах. Разница между чистым rl и sft-rl заключается в воображении. У rl лучшая обобщаемость, а у sft-rl мозг более тупой. Поэтому хакеры могут только случайно создать что-то с помощью rl, а не массово производить, а те, кто может производить, все тупые.