Nemotron 3 Super 120B NVFP4 Samostatné instance vLLM na 1x H200 PCIe NVL a 1x RTX Pro 6000 Blackwell Spustil jsem syntetický kód styl zátěže napříč každým zaměřením na 2k-45k vstupních tokenů, 80-3k max výstupních tokenů a 10 současných požadavků s celkem 100 prompty Průměrný tok/s: - 261,57 tok/s (H200, NVFP4 GEMM = Marlin) - 175,44 tok/s (H200, NVFP4 GEMM = emulováno) - 182,90 tok/s (RTX Pro 6000) TTFT průměr / medián: - 2281ms / 1091ms (H200, NVFP4 GEMM =Marlin) - 2849ms / 1374ms (H200, NVFP4 GEMM = emulováno) - 1799ms / 948ms (RTX Pro 6000) Na 1x H200 se vLLM vrací k následujícím backendům: - FP8 Dense: Cutlass - NVFP4 GEMM: Marlin - NVFP4 MoE: Marlin - Pozor: Triton - KV Cache: FP8 1x RTX Pro 6000 Blackwell: - FP8 Dense: FlashInfer - NVFP4 GEMM: FlashInfer Cutlass - NVFP4 MoE: FlashInfer Cutlass - Pozor: Triton - KV Cache: FP8
konfigurace vLLM napříč instancemi H200 i RTX Pro 6000: vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --async-scheduling \ --served-model-name: Nemotron-3-super-NVFP4 \ --dtype auto \ --kv-cache-dtype FP8 \ --tensor-paralelní-velikost 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --důvěřuj-remote-code \ --pozor na pozadí TRITON_ATTN \ --GPU-Memory-Utilization 0.9 \ --povolit-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 ==================== konfigurace vLLM s NVFP4 GEMM emulovaným na H200s: export VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --async-scheduling \ --served-model-name: Nemotron-3-super-NVFP4 \ --dtype auto \ --kv-cache-dtype FP8 \ --tensor-paralelní-velikost 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --důvěřuj-remote-code \ --pozor na pozadí TRITON_ATTN \ --GPU-Memory-Utilization 0.9 \ --povolit-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 \ -cc '{"cudagraph_mode":0}'
konfigurace vLLM napříč instancemi H200 i RTX Pro 6000: vllm servírovat <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \ --async-scheduling \ --served-model-name: Nemotron-3-super-NVFP4 \ --dtype auto \ --kv-cache-dtype FP8 \ --tensor-paralelní-velikost 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --důvěřuj-remote-code \ --pozor na pozadí TRITON_ATTN \ --GPU-Memory-Utilization 0.9 \ --povolit-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 ==================== konfigurace vLLM s NVFP4 GEMM emulovaným na H200s: export VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm servírovat <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \ --async-scheduling \ --served-model-name: Nemotron-3-super-NVFP4 \ --dtype auto \ --kv-cache-dtype FP8 \ --tensor-paralelní-velikost 1 \ --pipeline-parallel-size 1 \ --data-parallel-size 1 \ --důvěřuj-remote-code \ --pozor na pozadí TRITON_ATTN \ --GPU-Memory-Utilization 0.9 \ --povolit-chunked-prefill \ --max-num-seqs 512 \ --host 0.0.0.0 \ --port 8000 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --reasoning-parser super_v3 \ -cc '{"cudagraph_mode":0}'
94