Nemotron 3 Super 120B NVFP4 Instanțe vLLM separate pe 1x H200 PCIe NVL și 1x RTX Pro 6000 Blackwell Am rulat o sarcină de lucru de tip agent de codare sintetică pe fiecare, țintind 2k-45k tokenuri de intrare, 80-3k tokenuri de ieșire maxim și 10 cereri concurente cu un total de 100 de prompturi Tok/s medie: - 261,57 tok/s (H200, NVFP4 GEMM=Marlin) - 175,44 tok/s (H200, NVFP4 GEMM=Emulat) - 182,90 tok/s (RTX Pro 6000) Media / Mediana TTFT: - 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin) - 2849ms / 1374ms (H200, NVFP4 GEMM=Emulat) - 1799ms / 948ms (RTX Pro 6000) Pe 1x H200, vLLM revine la următoarele backend-uri: - FP8 Dense: Cutlass - NVFP4 GEMM: Marlin - NVFP4 MoE: Marlin - Atenție: Triton - KV Cache: FP8 1x RTX Pro 6000 Blackwell: - FP8 Dense: FlashInfer - NVFP4 GEMM: Cutlass FlashInfer - NVFP4 MoE: FlashInfer Cutlass - Atenție: Triton - KV Cache: FP8
Configurația vLLM atât în instanțele H200, cât și RTX Pro 6000: Serviciul <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>VLLM --programare asincronă \ --nume-model-servit nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-paralel-dimensiune 1 \ --paralel-conductă-dimensiune 1 \ --data-paralel-dimensiune 1 \ --trust-remote-code \ --atenție-backend TRITON_ATTN \ --gpu-utilizarea memoriei 0.9 \ --preumplurea cu bucăți activă \ --max-num-seqs 512 \ --gazdă 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --activare-auto-alegerea uneltei \ --parser-tool-call-parser qwen3_coder \ --plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \ --analizator de raționament super_v3 ==================== Configurare vLLM cu NVFP4 GEMM emulat pe H200s: export VLLM_USE_NVFP4_CT_EMULATIONS=1 Serviciul <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>VLLM --programare asincronă \ --nume-model-servit nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-paralel-dimensiune 1 \ --paralel-conductă-dimensiune 1 \ --data-paralel-dimensiune 1 \ --trust-remote-code \ --atenție-backend TRITON_ATTN \ --gpu-utilizarea memoriei 0.9 \ --preumplurea cu bucăți activă \ --max-num-seqs 512 \ --gazdă 0.0.0.0 \ --port 8000 \ --api-key YOUR_API_KEY \ --activare-auto-alegerea uneltei \ --parser-tool-call-parser qwen3_coder \ --plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \ --analizator de raționament super_v3 \ -cc '{"cudagraph_mode":0}'
Configurația vLLM atât în instanțele H200, cât și RTX Pro 6000: VLLM <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> slujește \ --programare asincronă \ --nume-model-servit nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-paralel-dimensiune 1 \ --paralel-conductă-dimensiune 1 \ --data-paralel-dimensiune 1 \ --trust-remote-code \ --atenție-backend TRITON_ATTN \ --gpu-utilizarea memoriei 0.9 \ --preumplurea cu bucăți activă \ --max-num-seqs 512 \ --gazdă 0.0.0.0 \ --port 8000 \ --activare-auto-alegerea uneltei \ --parser-tool-call-parser qwen3_coder \ --plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \ --analizator de raționament super_v3 ==================== Configurare vLLM cu NVFP4 GEMM emulat pe H200s: export VLLM_USE_NVFP4_CT_EMULATIONS=1 VLLM <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> slujește \ --programare asincronă \ --nume-model-servit nemotron-3-super-nvfp4 \ --dtype auto \ --kv-cache-dtype fp8 \ --tensor-paralel-dimensiune 1 \ --paralel-conductă-dimensiune 1 \ --data-paralel-dimensiune 1 \ --trust-remote-code \ --atenție-backend TRITON_ATTN \ --gpu-utilizarea memoriei 0.9 \ --preumplurea cu bucăți activă \ --max-num-seqs 512 \ --gazdă 0.0.0.0 \ --port 8000 \ --activare-auto-alegerea uneltei \ --parser-tool-call-parser qwen3_coder \ --plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \ --analizator de raționament super_v3 \ -cc '{"cudagraph_mode":0}'
98