Nemotron 3 Super 120B NVFP4 1x H200 PCIe NVL ve 1x RTX Pro 6000 Blackwell üzerinde ayrı vLLM örnekleri Her biri için 2k-45k giriş tokenı, 80-3k maksimum çıkış belirtonu ve 10 eşzamanlı istek ile toplam 100 istem hedefleyen sentetik kodlama ajanı tarzı bir iş yükü çalıştırdım Ortalama Tok/s: - 261.57 tok/s (H200, NVFP4 GEMM=Marlin) - 175.44 tok/s (H200, NVFP4 GEMM=Emulasyon) - 182.90 tok/s (RTX Pro 6000) TTFT Ortalama / Orta: - 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin) - 2849ms / 1374ms (H200, NVFP4 GEMM=Emulasyon) - 1799ms / 948ms (RTX Pro 6000) 1x H200 durumunda, vLLM aşağıdaki arka uçlara geri döner: - FP8 Yoğun: Cutlass - NVFP4 GEMM: Marlin - NVFP4 Eğitim Alanı: Marlin - Dikkat: Triton - KV Önbellek: FP8 1x RTX Pro 6000 Blackwell: - FP8 Yoğun: FlashInfer - NVFP4 GEMM: FlashInfer Cutlass - NVFP4 MoE: FlashInfer Cutlass - Dikkat: Triton - KV Önbellek: FP8
H200 ve RTX Pro 6000 örneklerinde vLLM yapılandırması: vllm servisi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --asenkron-zamanlama \ --hizmet edilen model adı nemotron-3-super-nvfp4 \ --dtype otomatik \ --kv-cache-dtype fp8 \ --tensor-paralel-boyut 1 \ --pipeline-parallel-boyut 1 \ --veri-paralel-boyut 1 \ --güven-uzaktan kod \ --dikkat-arka uç TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --aç-parça-ön doldurma \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --otomatik araç seçimini etkinleştir \ --alet-çağrı-ayrıştırıcı qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --mantık ayrıştırıcı super_v3 ==================== H200'lerde emülasyon edilen NVFP4 GEMM ile vLLM yapılandırması: ihracat VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm servisi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --asenkron-zamanlama \ --hizmet edilen model adı nemotron-3-super-nvfp4 \ --dtype otomatik \ --kv-cache-dtype fp8 \ --tensor-paralel-boyut 1 \ --pipeline-parallel-boyut 1 \ --veri-paralel-boyut 1 \ --güven-uzaktan kod \ --dikkat-arka uç TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --aç-parça-ön doldurma \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --otomatik araç seçimini etkinleştir \ --alet-çağrı-ayrıştırıcı qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --mantık ayrıştırıcı super_v3 \ -cc '{"cudagraph_mode":0}'
H200 ve RTX Pro 6000 örneklerinde vLLM yapılandırması: vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servisi \ --asenkron-zamanlama \ --hizmet edilen model adı nemotron-3-super-nvfp4 \ --dtype otomatik \ --kv-cache-dtype fp8 \ --tensor-paralel-boyut 1 \ --pipeline-parallel-boyut 1 \ --veri-paralel-boyut 1 \ --güven-uzaktan kod \ --dikkat-arka uç TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --aç-parça-ön doldurma \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --otomatik araç seçimini etkinleştir \ --alet-çağrı-ayrıştırıcı qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --mantık ayrıştırıcı super_v3 ==================== H200'lerde emülasyon edilen NVFP4 GEMM ile vLLM yapılandırması: ihracat VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servisi \ --asenkron-zamanlama \ --hizmet edilen model adı nemotron-3-super-nvfp4 \ --dtype otomatik \ --kv-cache-dtype fp8 \ --tensor-paralel-boyut 1 \ --pipeline-parallel-boyut 1 \ --veri-paralel-boyut 1 \ --güven-uzaktan kod \ --dikkat-arka uç TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --aç-parça-ön doldurma \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --otomatik araç seçimini etkinleştir \ --alet-çağrı-ayrıştırıcı qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --mantık ayrıştırıcı super_v3 \ -cc '{"cudagraph_mode":0}'
97