50% do meu trabalho de consultoria atualmente é ajudar empresas a usarem modelos open-source em escala. Todo mundo sabe usar um LLM open-source em seus computadores, mas é realmente difícil fazer isso em escala para milhares de usuários. Veja como isso se desenrola: 1. Uma equipe constrói um protótipo usando o DeepSeek. 2. Tudo parece estar bem. Funciona! 3. Eles seguem um guia online para implantar o modelo online. 4. Eles pedem para 10 usuários experimentarem o app. 5. Picos de latência em todo lugar. 6. Todo o sistema para. 7. Eles culpam a DeepSeek e tentam novamente usando um novo modelo. O problema está sempre na inferência de escalonamento, não no modelo. Aqui está uma recomendação que dou às empresas: Confira o Nebius Token Factory se você não quiser nunca mais pensar em implantar um modelo open-source. Esta é uma plataforma de inferência gerenciada para implantar LLMs open-source em larga escala. Isso não é para protótipos ou experimentos de pesquisa. Isso é para quando você tem uma aplicação real com usuários reais. Três observações importantes sobre a Fábrica de Fichas: • Você tem controle total sobre como a inferência funciona. • Você tem latência de cauda previsível (P99, não médias). • Não há custos surpresas quando você escala o espaço. Você pode planejar seu orçamento com antecedência. ...