Il 50% del mio lavoro di consulenza in questo momento consiste nell'aiutare le aziende a utilizzare modelli open-source su larga scala. Tutti sanno come utilizzare un LLM open-source sui propri computer, ma è davvero difficile farlo su larga scala per migliaia di utenti. Ecco come si svolge: 1. Un team costruisce un prototipo utilizzando DeepSeek. 2. Tutto sembra a posto. Funziona! 3. Seguono una guida online per distribuire il modello online. 4. Chiedono a 10 utenti di provare l'app. 5. I tempi di latenza schizzano ovunque. 6. L'intero sistema si ferma. 7. Incolpano DeepSeek e provano di nuovo utilizzando un nuovo modello. Il problema è sempre con la scalabilità dell'inferenza, non con il modello. Ecco un consiglio che do alle aziende: Dai un'occhiata a Nebius Token Factory se non vuoi mai più pensare a come distribuire un modello open-source. Questa è una piattaforma di inferenza gestita per distribuire LLM open-source su larga scala. Questo non è per prototipi o esperimenti di ricerca. Questo è per quando hai un'applicazione reale con utenti reali. Tre note importanti su Token Factory: • Hai il controllo completo su come viene eseguita l'inferenza. • Hai una latenza di coda prevedibile (P99, non medie). • Nessun costo a sorpresa quando scalate. Puoi pianificare in anticipo il tuo budget. ...