💡 Ledende inferensleverandører — @basetenco, @DeepInfra, @FireworksAI_HQ og @togethercompute — kutter kostnaden per token med opptil 10 ganger på tvers av bransjer med optimaliserte inferensstakker drevet av NVIDIA Blackwell-plattformen. Ved å kombinere #opensource grenseintelligens med NVIDIA Blackwells maskinvare–programvare-codesign, og deres egne optimaliserte inferensstabler, leverer disse leverandørene dramatiske tokenkostnadsreduksjoner for bedrifter som @SullyAI, Latitude, Sentient og Decagon. 🔗
⚡ Drevet av NVIDIA Blackwell akseler @togethercompute og @DecagonAI AI-kundeservice — leverer menneskelignende stemmeinteraksjoner på under 600 ms og reduserer kostnadene med 6 ganger. Med Togethers optimaliserte inferensstack som kjører på NVIDIA Blackwell, driver Decagon sanntids concierge-opplevelser i stor skala — og håndterer hundrevis av forespørsler per sekund med presisjon på under et sekund.
🩺 @SullyAI transformerer helseeffektiviteten med Basetens Model API, og kjører banebrytende åpne modeller som gpt-oss-120b på NVIDIA Blackwell-GPUer. Med sin optimaliserte inferensstack bygget med NVIDIA Blackwell, NVFP4, TensorRT-LLM og NVIDIA Dynamo, leverte Baseten en 10x kostnadsreduksjon og 65 % raskere respons for viktige arbeidsflyter som generering av kliniske notater.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude kjører storskala modeller med blanding av eksperter på DeepInfras inferensplattform, drevet av NVIDIA Blackwell GPU-er, NVFP4 og TensorRT LLM. DeepInfra reduserte kostnaden per million tokens fra 0,20 til 0,05 dollar — en 4x effektivitetsgevinst.
For å håndtere skala og kompleksitet bruker @SentientAGI Fireworks AI-inferensplattformen som kjører på NVIDIA Blackwell. Med @FireworksAI_HQ Blackwell-optimaliserte inferensstack oppnådde Sentient 25–50 % bedre kostnadseffektivitet sammenlignet med sin tidligere Hopper-baserte implementering.  Med andre ord kunne selskapet betjene 25–50 % flere samtidige brukere på hver GPU til samme kostnad. Plattformens skalerbarhet støttet en viral lansering av 1,8 millioner brukere på venteliste på 24 timer og behandlet 5,6 millioner forespørsler i løpet av en uke, samtidig som den leverte jevnt lav ventetid.
85