Esto mola. Predigo que para mayo de 2026 cualquiera podrá entrenar un modelo personalizado como este para ~cualquier tarea mediante alguna combinación de prime-rl/verificadores, tinker, skyRL, slime, etc. el foso será saber qué tarea hacer en RL y la magia de datos/entorno