El 50% de mi trabajo de consultoría ahora mismo es ayudar a empresas a usar modelos de código abierto a gran escala. Todo el mundo sabe cómo usar un LLM de código abierto en sus ordenadores, pero es realmente difícil hacerlo a gran escala para miles de usuarios. Así es como se desarrolla esto: 1. Un equipo construye un prototipo usando DeepSeek. 2. Todo parece bien. ¡Funciona! 3. Siguen una guía en línea para desplegar el modelo en línea. 4. Piden a 10 usuarios que prueben la app. 5. Picos de latencia por todas partes. 6. Todo el sistema se detiene. 7. Culpan a DeepSeek y lo intentan de nuevo usando un nuevo modelo. El problema siempre está en la inferencia de escalado, no en el modelo. Aquí va una recomendación que doy a las empresas: Echa un vistazo a Nebius Token Factory si no quieres volver a plantearte desplegar un modelo de código abierto. Esta es una plataforma de inferencia gestionada para desplegar LLMs de código abierto a gran escala. Esto no es para prototipos ni experimentos de investigación. Esto es para cuando tienes una aplicación real con usuarios reales. Tres notas importantes sobre Token Factory: • Tienes control total sobre cómo se desarrolla la inferencia. • Tienes una latencia de cola predecible (P99, no promedias). • No hay costes sorpresa cuando escales. Puedes planificar tu presupuesto con antelación. ...