DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Kami bekerja sama dengan komunitas OSS untuk menghilangkan dugaan dari penyajian terpilah dengan mengintegrasikan NVIDIA Dynamo ke dalam tumpukan, dengan dukungan untuk semua kerangka kerja penyajian inferensi utama. 🔹 @sgl_project komunitas meningkatkan kinerja inferensi AI—mengurangi tebakan dan memungkinkan eksekusi model yang lebih cepat, lebih efisien, dan dapat diskalakan. 🔹 Mooncake AI membangun backend SGLang pertama untuk AIConfigurator, memungkinkan dukungan cepat untuk model seperti Llama, Qwen, dan DeepSeek dengan menerapkan lapisan kolektor untuk operasi inti seperti GEMM dan perhatian. 🔹 @alibaba_cloud mengintegrasikan AIConfigurator ke dalam AI Serving Stack di Kubernetes (ACK), menggunakan mesin orkestrasi RoleBasedGroup (RBG) untuk mengotomatiskan penerapan dan mengelola pemisahan pra-pengisian/dekode. Hasilnya: throughput 1,86× lebih tinggi pada Qwen3-235B-FP8 sambil mempertahankan TTFT < 5 detik dan ITL < 40 ms. Baca blog teknis →

Teratas

Peringkat

Favorit