Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nemotron 3 Super 120B NVFP4
Instanțe vLLM separate pe 1x H200 PCIe NVL și 1x RTX Pro 6000 Blackwell
Am rulat o sarcină de lucru de tip agent de codare sintetică pe fiecare, țintind 2k-45k tokenuri de intrare, 80-3k tokenuri de ieșire maxim și 10 cereri concurente cu un total de 100 de prompturi
Tok/s medie:
- 261,57 tok/s (H200, NVFP4 GEMM=Marlin)
- 175,44 tok/s (H200, NVFP4 GEMM=Emulat)
- 182,90 tok/s (RTX Pro 6000)
Media / Mediana TTFT:
- 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin)
- 2849ms / 1374ms (H200, NVFP4 GEMM=Emulat)
- 1799ms / 948ms (RTX Pro 6000)
Pe 1x H200, vLLM revine la următoarele backend-uri:
- FP8 Dense: Cutlass
- NVFP4 GEMM: Marlin
- NVFP4 MoE: Marlin
- Atenție: Triton
- KV Cache: FP8
1x RTX Pro 6000 Blackwell:
- FP8 Dense: FlashInfer
- NVFP4 GEMM: Cutlass FlashInfer
- NVFP4 MoE: FlashInfer Cutlass
- Atenție: Triton
- KV Cache: FP8



Configurația vLLM atât în instanțele H200, cât și RTX Pro 6000:
Serviciul <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>VLLM
--programare asincronă \
--nume-model-servit nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-paralel-dimensiune 1 \
--paralel-conductă-dimensiune 1 \
--data-paralel-dimensiune 1 \
--trust-remote-code \
--atenție-backend TRITON_ATTN \
--gpu-utilizarea memoriei 0.9 \
--preumplurea cu bucăți activă \
--max-num-seqs 512 \
--gazdă 0.0.0.0 \
--port 8000 \
--api-key YOUR_API_KEY \
--activare-auto-alegerea uneltei \
--parser-tool-call-parser qwen3_coder \
--plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \
--analizator de raționament super_v3
====================
Configurare vLLM cu NVFP4 GEMM emulat pe H200s:
export VLLM_USE_NVFP4_CT_EMULATIONS=1
Serviciul <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>VLLM
--programare asincronă \
--nume-model-servit nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-paralel-dimensiune 1 \
--paralel-conductă-dimensiune 1 \
--data-paralel-dimensiune 1 \
--trust-remote-code \
--atenție-backend TRITON_ATTN \
--gpu-utilizarea memoriei 0.9 \
--preumplurea cu bucăți activă \
--max-num-seqs 512 \
--gazdă 0.0.0.0 \
--port 8000 \
--api-key YOUR_API_KEY \
--activare-auto-alegerea uneltei \
--parser-tool-call-parser qwen3_coder \
--plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \
--analizator de raționament super_v3 \
-cc '{"cudagraph_mode":0}'
Configurația vLLM atât în instanțele H200, cât și RTX Pro 6000:
VLLM <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> slujește \
--programare asincronă \
--nume-model-servit nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-paralel-dimensiune 1 \
--paralel-conductă-dimensiune 1 \
--data-paralel-dimensiune 1 \
--trust-remote-code \
--atenție-backend TRITON_ATTN \
--gpu-utilizarea memoriei 0.9 \
--preumplurea cu bucăți activă \
--max-num-seqs 512 \
--gazdă 0.0.0.0 \
--port 8000 \
--activare-auto-alegerea uneltei \
--parser-tool-call-parser qwen3_coder \
--plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \
--analizator de raționament super_v3
====================
Configurare vLLM cu NVFP4 GEMM emulat pe H200s:
export VLLM_USE_NVFP4_CT_EMULATIONS=1
VLLM <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> slujește \
--programare asincronă \
--nume-model-servit nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-paralel-dimensiune 1 \
--paralel-conductă-dimensiune 1 \
--data-paralel-dimensiune 1 \
--trust-remote-code \
--atenție-backend TRITON_ATTN \
--gpu-utilizarea memoriei 0.9 \
--preumplurea cu bucăți activă \
--max-num-seqs 512 \
--gazdă 0.0.0.0 \
--port 8000 \
--activare-auto-alegerea uneltei \
--parser-tool-call-parser qwen3_coder \
--plugin-parser-de <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>raționament /super_v3_reasoning_parser.py \
--analizator de raționament super_v3 \
-cc '{"cudagraph_mode":0}'
98
Limită superioară
Clasament
Favorite
