Nemotron 3 Super 120B NVFP4 Oddzielne instancje vLLM na 1x H200 PCIe NVL i 1x RTX Pro 6000 Blackwell Przeprowadzono syntetyczne obciążenie w stylu agenta kodującego na każdym z nich, celując w 2k-45k tokenów wejściowych, 80-3k maksymalnych tokenów wyjściowych oraz 10 równoczesnych żądań z 100 łącznymi podpowiedziami Średnia Tok/s: - 261.57 tok/s (H200, NVFP4 GEMM=Marlin) - 175.44 tok/s (H200, NVFP4 GEMM=Emulowany) - 182.90 tok/s (RTX Pro 6000) Średni / Mediana TTFT: - 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin) - 2849ms / 1374ms (H200, NVFP4 GEMM=Emulowany) - 1799ms / 948ms (RTX Pro 6000) Na 1x H200, vLLM wraca do następujących backendów: - FP8 Dense: Cutlass - NVFP4 GEMM: Marlin - NVFP4 MoE: Marlin - Attention: Triton - KV Cache: FP8 1x RTX Pro 6000 Blackwell: - FP8 Dense: FlashInfer - NVFP4 GEMM: FlashInfer Cutlass - NVFP4 MoE: FlashInfer Cutlass - Attention: Triton - KV Cache: FP8
konfiguracja vLLM na instancjach H200 i RTX Pro 6000: vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 ==================== konfiguracja vLLM z emulacją NVFP4 GEMM na H200: export VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 \ -cc '{"cudagraph_mode":0}'
konfiguracja vLLM na instancjach H200 i RTX Pro 6000: vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \ --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 ==================== konfiguracja vLLM z emulacją NVFP4 GEMM na H200: export VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \ --async-scheduling \ --served-model-name nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-size 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --trust-remote-code \ --attention-backend TRITON_ATTN \ --gpu-memory-utilization 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 \ -cc '{"cudagraph_mode":0}'
96