這很酷。我預測到2026年5月,任何人都能夠通過某種組合的prime-rl/verifiers、tinker、skyRL、slime等來訓練一個自定義模型,適用於~任何任務。 關鍵在於知道要對什麼任務進行強化學習以及數據/環境的魔法。