Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nemotron 3 Super 120B NVFP4
Samostatné instance vLLM na 1x H200 PCIe NVL a 1x RTX Pro 6000 Blackwell
Spustil jsem syntetický kód styl zátěže napříč každým zaměřením na 2k-45k vstupních tokenů, 80-3k max výstupních tokenů a 10 současných požadavků s celkem 100 prompty
Průměrný tok/s:
- 261,57 tok/s (H200, NVFP4 GEMM = Marlin)
- 175,44 tok/s (H200, NVFP4 GEMM = emulováno)
- 182,90 tok/s (RTX Pro 6000)
TTFT průměr / medián:
- 2281ms / 1091ms (H200, NVFP4 GEMM =Marlin)
- 2849ms / 1374ms (H200, NVFP4 GEMM = emulováno)
- 1799ms / 948ms (RTX Pro 6000)
Na 1x H200 se vLLM vrací k následujícím backendům:
- FP8 Dense: Cutlass
- NVFP4 GEMM: Marlin
- NVFP4 MoE: Marlin
- Pozor: Triton
- KV Cache: FP8
1x RTX Pro 6000 Blackwell:
- FP8 Dense: FlashInfer
- NVFP4 GEMM: FlashInfer Cutlass
- NVFP4 MoE: FlashInfer Cutlass
- Pozor: Triton
- KV Cache: FP8



konfigurace vLLM napříč instancemi H200 i RTX Pro 6000:
vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>
--async-scheduling \
--served-model-name: Nemotron-3-super-NVFP4 \
--dtype auto \
--kv-cache-dtype FP8 \
--tensor-paralelní-velikost 1 \
--pipeline-parallel-size 1 \
--data-parallel-size 1 \
--důvěřuj-remote-code \
--pozor na pozadí TRITON_ATTN \
--GPU-Memory-Utilization 0.9 \
--povolit-chunked-prefill \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--api-key YOUR_API_KEY \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--reasoning-parser super_v3
====================
konfigurace vLLM s NVFP4 GEMM emulovaným na H200s:
export VLLM_USE_NVFP4_CT_EMULATIONS=1
vllm serve <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>
--async-scheduling \
--served-model-name: Nemotron-3-super-NVFP4 \
--dtype auto \
--kv-cache-dtype FP8 \
--tensor-paralelní-velikost 1 \
--pipeline-parallel-size 1 \
--data-parallel-size 1 \
--důvěřuj-remote-code \
--pozor na pozadí TRITON_ATTN \
--GPU-Memory-Utilization 0.9 \
--povolit-chunked-prefill \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--api-key YOUR_API_KEY \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--reasoning-parser super_v3 \
-cc '{"cudagraph_mode":0}'
konfigurace vLLM napříč instancemi H200 i RTX Pro 6000:
vllm servírovat <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \
--async-scheduling \
--served-model-name: Nemotron-3-super-NVFP4 \
--dtype auto \
--kv-cache-dtype FP8 \
--tensor-paralelní-velikost 1 \
--pipeline-parallel-size 1 \
--data-parallel-size 1 \
--důvěřuj-remote-code \
--pozor na pozadí TRITON_ATTN \
--GPU-Memory-Utilization 0.9 \
--povolit-chunked-prefill \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--reasoning-parser super_v3
====================
konfigurace vLLM s NVFP4 GEMM emulovaným na H200s:
export VLLM_USE_NVFP4_CT_EMULATIONS=1
vllm servírovat <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> \
--async-scheduling \
--served-model-name: Nemotron-3-super-NVFP4 \
--dtype auto \
--kv-cache-dtype FP8 \
--tensor-paralelní-velikost 1 \
--pipeline-parallel-size 1 \
--data-parallel-size 1 \
--důvěřuj-remote-code \
--pozor na pozadí TRITON_ATTN \
--GPU-Memory-Utilization 0.9 \
--povolit-chunked-prefill \
--max-num-seqs 512 \
--host 0.0.0.0 \
--port 8000 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--reasoning-parser super_v3 \
-cc '{"cudagraph_mode":0}'
94
Top
Hodnocení
Oblíbené
