DApp Store | Pusat Web3 untuk Event & Game

Topik trending

💡 Penyedia inferensi terkemuka — @basetenco, @DeepInfra, @FireworksAI_HQ, dan @togethercompute — memangkas biaya per token hingga 10x lipat di seluruh industri dengan tumpukan inferensi yang dioptimalkan yang didukung oleh platform NVIDIA Blackwell. Dengan menggabungkan kecerdasan perbatasan #opensource dengan desain bersama perangkat keras-perangkat lunak NVIDIA Blackwell, dan tumpukan inferensi mereka sendiri yang dioptimalkan, penyedia ini memberikan pengurangan biaya token yang dramatis untuk bisnis termasuk @SullyAI, Latitude, Sentient, dan Decagon. 🔗

⚡ Didukung oleh NVIDIA Blackwell, @togethercompute dan @DecagonAI mempercepat layanan pelanggan AI — menghadirkan interaksi suara seperti manusia dalam waktu kurang dari 600 ms dan memangkas biaya hingga 6x lipat. Dengan tumpukan inferensi Together yang dioptimalkan yang berjalan di NVIDIA Blackwell, Decagon mendukung pengalaman pramutamu real-time dalam skala besar — menangani ratusan kueri per detik dengan presisi di bawah detik.

🩺 @SullyAI mengubah efisiensi perawatan kesehatan dengan API Model Baseten, menjalankan model terbuka perbatasan seperti gpt-oss-120b pada GPU NVIDIA Blackwell. Dengan tumpukan inferensi yang dioptimalkan yang dibuat menggunakan NVIDIA Blackwell, NVFP4, TensorRT-LLM, dan NVIDIA Dynamo, Baseten memberikan pengurangan biaya 10x lipat dan respons 65% lebih cepat untuk alur kerja utama seperti pembuatan catatan klinis.

@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude menjalankan model campuran ahli skala besar pada platform inferensi DeepInfra, yang didukung oleh GPU NVIDIA Blackwell, NVFP4, dan TensorRT LLM. DeepInfra mengurangi biaya per juta token dari $0,20 menjadi $0,05 — peningkatan efisiensi 4x lipat.

Untuk mengelola skala dan kompleksitas, @SentientAGI menggunakan platform inferensi Fireworks AI yang berjalan di NVIDIA Blackwell. Dengan tumpukan inferensi Blackwell yang dioptimalkan @FireworksAI_HQ, Sentient mencapai efisiensi biaya 25-50% lebih baik dibandingkan dengan penerapan berbasis Hopper sebelumnya. Dengan kata lain, perusahaan dapat melayani 25-50% lebih banyak pengguna bersamaan di setiap GPU dengan biaya yang sama. Skalabilitas platform mendukung peluncuran viral 1,8 juta pengguna daftar tunggu dalam 24 jam dan memproses 5,6 juta kueri dalam satu minggu sambil memberikan latensi rendah yang konsisten.

Teratas

Peringkat

Favorit