50 % mé současné konzultační práce spočívá v pomoci firmám používat open-source modely ve velkém měřítku. Každý ví, jak používat open-source LLM na svých počítačích, ale pro tisíce uživatelů je opravdu těžké to dělat ve velkém měřítku. Takto to probíhá: 1. Tým postaví prototyp pomocí DeepSeek. 2. Všechno vypadá dobře. Funguje to! 3. Řídí se online návodem pro nasazení modelu online. 4. Požádají 10 uživatelů, aby aplikaci vyzkoušeli. 5. Latence výkyvy všude. 6. Celý systém se zastaví. 7. Obviňují DeepSeek a zkoušejí to znovu s novým modelem. Problém je vždy v škálovací inferenci, ne v modelu. Tady je jedno doporučení, které dávám firmám: Pokud už nikdy nechcete uvažovat o nasazení open-source modelu, podívejte se na Nebius Token Factory. Jedná se o řízenou inferenční platformu pro nasazování open-source LLM ve velkém měřítku. Není to pro prototypy nebo výzkumné experimenty. To platí pro případy, kdy máte skutečnou aplikaci s opravdovými uživateli. Tři důležité poznámky o Token Factory: • Máte úplnou kontrolu nad tím, jak inference probíhá. • Máte předvídatelnou latenci ocasu (P99, ne průměry). • Žádné překvapivé náklady při rozšiřování výroby. Můžete si rozpočet naplánovat předem. ...