DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

💡 Furnizorii de inferență de top — @basetenco, @DeepInfra, @FireworksAI_HQ și @togethercompute — reduc costul per token de până la 10 ori în toate industriile, folosind stive de inferență optimizate alimentate de platforma NVIDIA Blackwell. Combinând inteligența #opensource frontieră cu co-designul hardware–software al NVIDIA Blackwell și propriile stive de inferență optimizate, acești furnizori oferă reduceri dramatice ale costurilor token-urilor pentru companii precum @SullyAI, Latitude, Sentient și Decagon. 🔗

⚡ Susținute de NVIDIA Blackwell, @togethercompute și @DecagonAI accelerează serviciul pentru clienți AI — oferind interacțiuni vocale asemănătoare oamenilor în mai puțin de 600 ms și reducând costurile de 6 ori. Cu stack-ul optimizat de inferențe al Together care rulează pe NVIDIA Blackwell, Decagon oferă experiențe concierge în timp real la scară largă — gestionând sute de interogări pe secundă cu o precizie sub secundă.

🩺 @SullyAI transformă eficiența în domeniul sănătății cu Model API-ul Baseten, rulând modele open de frontieră precum gpt-oss-120b pe GPU-urile NVIDIA Blackwell. Cu stack-ul lor optimizat de inferență construit folosind NVIDIA Blackwell, NVFP4, TensorRT-LLM și NVIDIA Dynamo, Baseten a oferit o reducere de costuri de 10 ori și răspunsuri cu 65% mai rapide pentru fluxuri de lucru cheie, cum ar fi generarea de note clinice.

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude rulează modele la scară largă mixte de experți pe platforma de inferență DeepInfra, alimentată de GPU-uri NVIDIA Blackwell, NVFP4 și TensorRT LLM. DeepInfra a redus costul pe milion de tokenuri de la 0,20 $ la 0,05 $ — un câștig de eficiență de 4x.

Pentru a gestiona scala și complexitatea, @SentientAGI folosește platforma de inferență AI Fireworks, care rulează pe NVIDIA Blackwell. Cu stack-ul de inferență optimizat de Blackwell al @FireworksAI_HQ, Sentient a obținut o eficiență a costurilor cu 25-50% mai bună comparativ cu implementarea anterioară bazată pe Hopper. Cu alte cuvinte, compania ar putea deservi cu 25–50% mai mulți utilizatori simultani pe fiecare GPU pentru același cost. Scalabilitatea platformei a susținut o lansare virală de 1,8 milioane de utilizatori aflați pe lista de așteptare în 24 de ore și a procesat 5,6 milioane de interogări într-o singură săptămână, oferind totodată o latență constantă și scăzută.

Limită superioară

Clasament

Favorite