Finalmente encontré un buen caso de uso para los subagentes. Hacer que los modelos de políticas sean más inteligentes mediante la creación automática de entornos de RL a partir de datos de tareas del mundo real. Mierda, realmente funciona