RL es un mecanismo potente para entrenar modelos específicos de la empresa en su trabajo y datos únicos. Esto es lo que hacemos en Applied Compute. Un desafío clave es cómo hacer que el RL sea eficiente, porque necesitamos que las ejecuciones sean rápidas (entregadas en días), baratas (economía escalable de unidades) y predecibles (no solo rápidas, sino fiables y rápidas). Aquí tienes algunas conclusiones: • El RL síncrono es un desperdicio de tiempo y cálculo. • El RL asíncrono es más eficiente pero introduce estancamiento, lo que provoca inestabilidades en el aprendizaje. • El modelado y las simulaciones pueden ayudar a resolver analíticamente qué configuración conduce a una eficiencia óptima. Esto nos permite prototipar rápidamente configuraciones de entrenamiento, sin gastar costosos ciclos de cómputo en las pruebas. Dos de nuestros cofundadores, @rhythmrg y @lindensli, discutieron recientemente en @aiDotEngineer parte de esta investigación, centrándose en el siguiente subproblema: ¿cuál es la forma con mayor rendimiento de hacer RL con un máximo de estancamiento y presupuesto de cómputo?