Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💡 Furnizorii de inferență de top — @basetenco, @DeepInfra, @FireworksAI_HQ și @togethercompute — reduc costul per token de până la 10 ori în toate industriile, folosind stive de inferență optimizate alimentate de platforma NVIDIA Blackwell.
Combinând inteligența #opensource frontieră cu co-designul hardware–software al NVIDIA Blackwell și propriile stive de inferență optimizate, acești furnizori oferă reduceri dramatice ale costurilor token-urilor pentru companii precum @SullyAI, Latitude, Sentient și Decagon.
🔗

⚡ Susținute de NVIDIA Blackwell, @togethercompute și @DecagonAI accelerează serviciul pentru clienți AI — oferind interacțiuni vocale asemănătoare oamenilor în mai puțin de 600 ms și reducând costurile de 6 ori.
Cu stack-ul optimizat de inferențe al Together care rulează pe NVIDIA Blackwell, Decagon oferă experiențe concierge în timp real la scară largă — gestionând sute de interogări pe secundă cu o precizie sub secundă.
🩺 @SullyAI transformă eficiența în domeniul sănătății cu Model API-ul Baseten, rulând modele open de frontieră precum gpt-oss-120b pe GPU-urile NVIDIA Blackwell.
Cu stack-ul lor optimizat de inferență construit folosind NVIDIA Blackwell, NVFP4, TensorRT-LLM și NVIDIA Dynamo, Baseten a oferit o reducere de costuri de 10 ori și răspunsuri cu 65% mai rapide pentru fluxuri de lucru cheie, cum ar fi generarea de note clinice.
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude rulează modele la scară largă mixte de experți pe platforma de inferență DeepInfra, alimentată de GPU-uri NVIDIA Blackwell, NVFP4 și TensorRT LLM.
DeepInfra a redus costul pe milion de tokenuri de la 0,20 $ la 0,05 $ — un câștig de eficiență de 4x.
Pentru a gestiona scala și complexitatea, @SentientAGI folosește platforma de inferență AI Fireworks, care rulează pe NVIDIA Blackwell. Cu stack-ul de inferență optimizat de Blackwell al @FireworksAI_HQ, Sentient a obținut o eficiență a costurilor cu 25-50% mai bună comparativ cu implementarea anterioară bazată pe Hopper.
Cu alte cuvinte, compania ar putea deservi cu 25–50% mai mulți utilizatori simultani pe fiecare GPU pentru același cost. Scalabilitatea platformei a susținut o lansare virală de 1,8 milioane de utilizatori aflați pe lista de așteptare în 24 de ore și a procesat 5,6 milioane de interogări într-o singură săptămână, oferind totodată o latență constantă și scăzută.
84
Limită superioară
Clasament
Favorite
