Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nemotron 3 Super 120B NVFP4
1x H200 PCIe NVL ve 1x RTX Pro 6000 Blackwell üzerinde ayrı vLLM örnekleri
Her biri için 2k-45k giriş tokenı, 80-3k maksimum çıkış belirtonu ve 10 eşzamanlı istek ile toplam 100 istem hedefleyen sentetik kodlama ajanı tarzı bir iş yükü çalıştırdım
Ortalama Tok/s:
- 261.57 tok/s (H200, NVFP4 GEMM=Marlin)
- 175.44 tok/s (H200, NVFP4 GEMM=Emulasyon)
- 182.90 tok/s (RTX Pro 6000)
TTFT Ortalama / Orta:
- 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin)
- 2849ms / 1374ms (H200, NVFP4 GEMM=Emulasyon)
- 1799ms / 948ms (RTX Pro 6000)
1x H200 durumunda, vLLM aşağıdaki arka uçlara geri döner:
- FP8 Yoğun: Cutlass
- NVFP4 GEMM: Marlin
- NVFP4 Eğitim Alanı: Marlin
- Dikkat: Triton
- KV Önbellek: FP8
1x RTX Pro 6000 Blackwell:
- FP8 Yoğun: FlashInfer
- NVFP4 GEMM: FlashInfer Cutlass
- NVFP4 MoE: FlashInfer Cutlass
- Dikkat: Triton
- KV Önbellek: FP8



H200 ve RTX Pro 6000 örneklerinde vLLM yapılandırması:
vllm servisi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>
--asenkron-zamanlama \
--hizmet edilen model adı nemotron-3-super-nvfp4 \
--dtype otomatik \
--kv-cache-dtype fp8 \
--tensor-paralel-boyut 1 \
--pipeline-parallel-boyut 1 \
--veri-paralel-boyut 1 \
--güven-uzaktan kod \
--dikkat-arka uç TRITON_ATTN \
--gpu-memory-utilization 0.9 \
--aç-parça-ön doldurma \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--api-key YOUR_API_KEY \
--otomatik araç seçimini etkinleştir \
--alet-çağrı-ayrıştırıcı qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--mantık ayrıştırıcı super_v3
====================
H200'lerde emülasyon edilen NVFP4 GEMM ile vLLM yapılandırması:
ihracat VLLM_USE_NVFP4_CT_EMULATIONS=1
vllm servisi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>
--asenkron-zamanlama \
--hizmet edilen model adı nemotron-3-super-nvfp4 \
--dtype otomatik \
--kv-cache-dtype fp8 \
--tensor-paralel-boyut 1 \
--pipeline-parallel-boyut 1 \
--veri-paralel-boyut 1 \
--güven-uzaktan kod \
--dikkat-arka uç TRITON_ATTN \
--gpu-memory-utilization 0.9 \
--aç-parça-ön doldurma \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--api-key YOUR_API_KEY \
--otomatik araç seçimini etkinleştir \
--alet-çağrı-ayrıştırıcı qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--mantık ayrıştırıcı super_v3 \
-cc '{"cudagraph_mode":0}'
H200 ve RTX Pro 6000 örneklerinde vLLM yapılandırması:
vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servisi \
--asenkron-zamanlama \
--hizmet edilen model adı nemotron-3-super-nvfp4 \
--dtype otomatik \
--kv-cache-dtype fp8 \
--tensor-paralel-boyut 1 \
--pipeline-parallel-boyut 1 \
--veri-paralel-boyut 1 \
--güven-uzaktan kod \
--dikkat-arka uç TRITON_ATTN \
--gpu-memory-utilization 0.9 \
--aç-parça-ön doldurma \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--otomatik araç seçimini etkinleştir \
--alet-çağrı-ayrıştırıcı qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--mantık ayrıştırıcı super_v3
====================
H200'lerde emülasyon edilen NVFP4 GEMM ile vLLM yapılandırması:
ihracat VLLM_USE_NVFP4_CT_EMULATIONS=1
vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servisi \
--asenkron-zamanlama \
--hizmet edilen model adı nemotron-3-super-nvfp4 \
--dtype otomatik \
--kv-cache-dtype fp8 \
--tensor-paralel-boyut 1 \
--pipeline-parallel-boyut 1 \
--veri-paralel-boyut 1 \
--güven-uzaktan kod \
--dikkat-arka uç TRITON_ATTN \
--gpu-memory-utilization 0.9 \
--aç-parça-ön doldurma \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--otomatik araç seçimini etkinleştir \
--alet-çağrı-ayrıştırıcı qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--mantık ayrıştırıcı super_v3 \
-cc '{"cudagraph_mode":0}'
97
En İyiler
Sıralama
Takip Listesi
