Nemotron 3 Super 120B NVFP4 Getrennte vLLM-Instanzen auf 1x H200 PCIe NVL & 1x RTX Pro 6000 Blackwell Habe eine synthetische Arbeitslast im Stil eines Codierungsagenten über jede Instanz ausgeführt, die 2k-45k Eingabetokens, 80-3k maximale Ausgabetokens und 10 gleichzeitige Anfragen mit insgesamt 100 Aufforderungen anvisiert Durchschnittliche Tok/s: - 261,57 tok/s (H200, NVFP4 GEMM=Marlin) - 175,44 tok/s (H200, NVFP4 GEMM=Emuliert) - 182,90 tok/s (RTX Pro 6000) TTFT Mittelwert / Median: - 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin) - 2849ms / 1374ms (H200, NVFP4 GEMM=Emuliert) - 1799ms / 948ms (RTX Pro 6000) Auf 1x H200 wechselt vLLM zu den folgenden Backends: - FP8 Dense: Cutlass - NVFP4 GEMM: Marlin - NVFP4 MoE: Marlin - Attention: Triton - KV Cache: FP8 1x RTX Pro 6000 Blackwell: - FP8 Dense: FlashInfer - NVFP4 GEMM: FlashInfer Cutlass - NVFP4 MoE: FlashInfer Cutlass - Attention: Triton - KV Cache: FP8
vLLM-Konfiguration für sowohl H200- als auch RTX Pro 6000-Instanzen: vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 ==================== vLLM-Konfiguration mit NVFP4 GEMM emuliert auf H200s: export VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 \ -cc '{"cudagraph_mode":0}'
vLLM-Konfiguration für sowohl H200- als auch RTX Pro 6000-Instanzen: vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \ --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 ==================== vLLM-Konfiguration mit NVFP4 GEMM emuliert auf H200s: export VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \ --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 \ -cc '{"cudagraph_mode":0}'
94