Nemotron 3 Super 120B NVFP4 Erilliset vLLM-instanssit 1x H200 PCIe NVL:llä ja 1x RTX Pro 6000 Blackwellillä Suoritin synteettisen koodausagenttityylisen työkuorman, joka kohdensi 2k-45k syöttötokeneita, 80-3k maksimitulostokeneita ja 10 samanaikaista pyyntöä, yhteensä 100 kehotetta Keskimääräinen Tok/s: - 261,57 tok/s (H200, NVFP4 GEMM=Marlin) - 175,44 tok/s (H200, NVFP4 GEMM=emuloitu) - 182,90 tok/s (RTX Pro 6000) TTFT keskiarvo / mediaani: - 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin) - 2849ms / 1374ms (H200, NVFP4 GEMM=emuloitu) - 1799ms / 948ms (RTX Pro 6000) 1x H200:ssa vLLM palaa seuraaviin taustalaitteisiin: - FP8 Tiheä: Cutlass - NVFP4 GEMM: Marlin - NVFP4 MoE: Marlin - Huomio: Triton - KV-välimuisti: FP8 1x RTX Pro 6000 Blackwell: - FP8 Tiheä: FlashInfer - NVFP4 GEMM: FlashInfer Cutlass - NVFP4 MoE: FlashInfer Cutlass - Huomio: Triton - KV-välimuisti: FP8
vLLM-konfiguraatio sekä H200- että RTX Pro 6000 -instansseissa: vllm servi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --asynkronis-aikataulutus \ --palveltu mallinimi nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-koko 1 \ --putki-rinnakkaiskoko 1 \ --data-rinnakkaiskoko 1 \ --luottamus-kauko-koodi \ --huomio-backend TRITON_ATTN \ --gpu-muisti-käyttö 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --isäntä 0.0.0.0 \ --portti 8000 \ --API-avain YOUR_API_KEY \ --enable-auto-tool-choice \ --työkalu-kutsu-jäsen qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --päättely-jäsentäjä super_v3 ==================== vLLM-konfiguraatio NVFP4 GEMM:llä, emuloituna H200:lla: vienti VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm servi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> --asynkronis-aikataulutus \ --palveltu mallinimi nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-koko 1 \ --putki-rinnakkaiskoko 1 \ --data-rinnakkaiskoko 1 \ --luottamus-kauko-koodi \ --huomio-backend TRITON_ATTN \ --gpu-muisti-käyttö 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --isäntä 0.0.0.0 \ --portti 8000 \ --API-avain YOUR_API_KEY \ --enable-auto-tool-choice \ --työkalu-kutsu-jäsen qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --päättely-jäsentäjä super_v3 \ -cc '{"cudagraph_mode":0}'
vLLM-konfiguraatio sekä H200- että RTX Pro 6000 -instansseissa: vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servi \ --asynkronis-aikataulutus \ --palveltu mallinimi nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-koko 1 \ --putki-rinnakkaiskoko 1 \ --data-rinnakkaiskoko 1 \ --luottamus-kauko-koodi \ --huomio-backend TRITON_ATTN \ --gpu-muisti-käyttö 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --isäntä 0.0.0.0 \ --portti 8000 \ --enable-auto-tool-choice \ --työkalu-kutsu-jäsen qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --päättely-jäsentäjä super_v3 ==================== vLLM-konfiguraatio NVFP4 GEMM:llä, emuloituna H200:lla: vienti VLLM_USE_NVFP4_CT_EMULATIONS=1 vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servi \ --asynkronis-aikataulutus \ --palveltu mallinimi nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-parallel-koko 1 \ --putki-rinnakkaiskoko 1 \ --data-rinnakkaiskoko 1 \ --luottamus-kauko-koodi \ --huomio-backend TRITON_ATTN \ --gpu-muisti-käyttö 0.9 \ --enable-chunked-prefill \ --max-num-seqs 512 \ --isäntä 0.0.0.0 \ --portti 8000 \ --enable-auto-tool-choice \ --työkalu-kutsu-jäsen qwen3_coder \ --reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \ --päättely-jäsentäjä super_v3 \ -cc '{"cudagraph_mode":0}'
92