💡 Ledande inferensleverantörer – @basetenco, @DeepInfra, @FireworksAI_HQ och @togethercompute – sänker kostnaden per token med upp till 10 gånger över branscher med optimerade inferensstackar som drivs av NVIDIA Blackwell-plattformen. Genom att kombinera #opensource frontier intelligence med NVIDIA Blackwells hårdvaru- och mjukvarudesign och sina egna optimerade inferensstackar, levererar dessa leverantörer dramatiska tokenkostnadsminskningar för företag som @SullyAI, Latitude, Sentient och Decagon. 🔗
⚡ Drivna av NVIDIA Blackwell accelererar @togethercompute och @DecagonAI AI-kundservice — levererar människoliknande röstinteraktioner på under 600 ms och minskar kostnaderna med 6 gånger. Med Togethers optimerade inferensstack som körs på NVIDIA Blackwell driver Decagon realtidsupplevelser med concierge i stor skala – och hanterar hundratals frågor per sekund med en precision under en sekund.
🩺 @SullyAI omvandlar effektiviteten inom hälso- och sjukvården med Basates Model API, där de kör öppna modeller som gpt-oss-120b på NVIDIA Blackwell-GPU:er. Med sin optimerade inferensstack byggd med NVIDIA Blackwell, NVFP4, TensorRT-LLM och NVIDIA Dynamo levererade Baseten en tiofalt kostnadsreduktion och 65 % snabbare svar för viktiga arbetsflöden som generering av kliniska anteckningar.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude kör storskaliga mix-of-experts-modeller på DeepInfras inferensplattform, drivna av NVIDIA Blackwell GPU:er, NVFP4 och TensorRT LLM. DeepInfra minskade kostnaden per miljon tokens från 0,20 till 0,05 dollar — en 4x effektivitetsökning.
För att hantera skala och komplexitet använder @SentientAGI Fireworks AI-inferensplattformen som körs på NVIDIA Blackwell. Med @FireworksAI_HQ:s Blackwell-optimerade inferensstack uppnådde Sentient 25–50 % bättre kostnadseffektivitet jämfört med sin tidigare Hopper-baserade installation.  Med andra ord skulle företaget kunna leverera 25–50 % fler samtidiga användare på varje GPU för samma kostnad. Plattformens skalbarhet stödde en viral lansering av 1,8 miljoner användare på väntelistan inom 24 timmar och behandlade 5,6 miljoner frågor under en enda vecka samtidigt som den levererade konsekvent låg latens.
90