💡 Vooruitstrevende inferentieproviders — @basetenco, @DeepInfra, @FireworksAI_HQ en @togethercompute — verlagen de kosten per token met tot 10x in verschillende sectoren met geoptimaliseerde inferentiestacks aangedreven door het NVIDIA Blackwell-platform. Door #opensource grensverleggende intelligentie te combineren met de hardware-software co-design van NVIDIA Blackwell en hun eigen geoptimaliseerde inferentiestacks, leveren deze providers een dramatische kostenverlaging per token voor bedrijven zoals @SullyAI, Latitude, Sentient en Decagon. 🔗
⚡ Aangedreven door NVIDIA Blackwell, versnellen @togethercompute en @DecagonAI de AI-klantenservice — met menselijke steminteracties in minder dan 600 ms en kostenbesparingen van 6x. Met de geoptimaliseerde inferentiestack van Together die draait op NVIDIA Blackwell, biedt Decagon realtime conciërge-ervaringen op grote schaal — met honderden vragen per seconde met sub-seconde precisie.
🩺 @SullyAI transformeert de efficiëntie in de gezondheidszorg met de Model API van Baseten, die grensverleggende open modellen zoals gpt-oss-120b draait op NVIDIA Blackwell GPU's. Met hun geoptimaliseerde inferentiestack, gebouwd met NVIDIA Blackwell, NVFP4, TensorRT-LLM en NVIDIA Dynamo, heeft Baseten een kostenreductie van 10x en 65% snellere reacties geleverd voor belangrijke workflows zoals het genereren van klinische notities.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude draait grootschalige mixture-of-experts modellen op het inferentieplatform van DeepInfra, aangedreven door NVIDIA Blackwell GPU's, NVFP4 en TensorRT LLM. DeepInfra heeft de kosten per miljoen tokens verlaagd van $0,20 naar $0,05 — een efficiëntiewinst van 4x.
Om schaal en complexiteit te beheren, gebruikt @SentientAGI het Fireworks AI-inferentieplatform dat draait op NVIDIA Blackwell. Met de Blackwell-geoptimaliseerde inferentiestack van @FireworksAI_HQ heeft Sentient 25-50% betere kostenefficiëntie bereikt in vergelijking met de eerdere implementatie op basis van Hopper. Met andere woorden, het bedrijf kon 25–50% meer gelijktijdige gebruikers bedienen op elke GPU voor dezelfde kosten. De schaalbaarheid van het platform ondersteunde een virale lancering van 1,8 miljoen wachtende gebruikers in 24 uur en verwerkte 5,6 miljoen verzoeken in een enkele week terwijl het consistente lage latentie leverde.
88