używając @PrimeIntellect do całego naszego pipeline'u rl na glm 4.6v oraz finetunach bezpieczeństwa nemotron, a moja pewność nigdy nie była tak silna, to po prostu takie proste prime-rl + weryfikatory + hub środowiskowy + hostowane szkolenie (nie używam, bo mam kredyty modalne 😋, ale to świetne) i możesz dosłownie trenować swoje modele na czymkolwiek i po prostu zacząć w mniej niż 15 minut, jeśli nie szybciej