Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nemotron 3 Super 120B NVFP4
Erilliset vLLM-instanssit 1x H200 PCIe NVL:llä ja 1x RTX Pro 6000 Blackwellillä
Suoritin synteettisen koodausagenttityylisen työkuorman, joka kohdensi 2k-45k syöttötokeneita, 80-3k maksimitulostokeneita ja 10 samanaikaista pyyntöä, yhteensä 100 kehotetta
Keskimääräinen Tok/s:
- 261,57 tok/s (H200, NVFP4 GEMM=Marlin)
- 175,44 tok/s (H200, NVFP4 GEMM=emuloitu)
- 182,90 tok/s (RTX Pro 6000)
TTFT keskiarvo / mediaani:
- 2281ms / 1091ms (H200, NVFP4 GEMM=Marlin)
- 2849ms / 1374ms (H200, NVFP4 GEMM=emuloitu)
- 1799ms / 948ms (RTX Pro 6000)
1x H200:ssa vLLM palaa seuraaviin taustalaitteisiin:
- FP8 Tiheä: Cutlass
- NVFP4 GEMM: Marlin
- NVFP4 MoE: Marlin
- Huomio: Triton
- KV-välimuisti: FP8
1x RTX Pro 6000 Blackwell:
- FP8 Tiheä: FlashInfer
- NVFP4 GEMM: FlashInfer Cutlass
- NVFP4 MoE: FlashInfer Cutlass
- Huomio: Triton
- KV-välimuisti: FP8



vLLM-konfiguraatio sekä H200- että RTX Pro 6000 -instansseissa:
vllm servi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>
--asynkronis-aikataulutus \
--palveltu mallinimi nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-koko 1 \
--putki-rinnakkaiskoko 1 \
--data-rinnakkaiskoko 1 \
--luottamus-kauko-koodi \
--huomio-backend TRITON_ATTN \
--gpu-muisti-käyttö 0.9 \
--enable-chunked-prefill \
--max-num-seqs 512 \
--isäntä 0.0.0.0 \
--portti 8000 \
--API-avain YOUR_API_KEY \
--enable-auto-tool-choice \
--työkalu-kutsu-jäsen qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--päättely-jäsentäjä super_v3
====================
vLLM-konfiguraatio NVFP4 GEMM:llä, emuloituna H200:lla:
vienti VLLM_USE_NVFP4_CT_EMULATIONS=1
vllm servi <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>
--asynkronis-aikataulutus \
--palveltu mallinimi nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-koko 1 \
--putki-rinnakkaiskoko 1 \
--data-rinnakkaiskoko 1 \
--luottamus-kauko-koodi \
--huomio-backend TRITON_ATTN \
--gpu-muisti-käyttö 0.9 \
--enable-chunked-prefill \
--max-num-seqs 512 \
--isäntä 0.0.0.0 \
--portti 8000 \
--API-avain YOUR_API_KEY \
--enable-auto-tool-choice \
--työkalu-kutsu-jäsen qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--päättely-jäsentäjä super_v3 \
-cc '{"cudagraph_mode":0}'
vLLM-konfiguraatio sekä H200- että RTX Pro 6000 -instansseissa:
vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servi \
--asynkronis-aikataulutus \
--palveltu mallinimi nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-koko 1 \
--putki-rinnakkaiskoko 1 \
--data-rinnakkaiskoko 1 \
--luottamus-kauko-koodi \
--huomio-backend TRITON_ATTN \
--gpu-muisti-käyttö 0.9 \
--enable-chunked-prefill \
--max-num-seqs 512 \
--isäntä 0.0.0.0 \
--portti 8000 \
--enable-auto-tool-choice \
--työkalu-kutsu-jäsen qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--päättely-jäsentäjä super_v3
====================
vLLM-konfiguraatio NVFP4 GEMM:llä, emuloituna H200:lla:
vienti VLLM_USE_NVFP4_CT_EMULATIONS=1
vllm <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path> servi \
--asynkronis-aikataulutus \
--palveltu mallinimi nemotron-3-super-nvfp4 \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-koko 1 \
--putki-rinnakkaiskoko 1 \
--data-rinnakkaiskoko 1 \
--luottamus-kauko-koodi \
--huomio-backend TRITON_ATTN \
--gpu-muisti-käyttö 0.9 \
--enable-chunked-prefill \
--max-num-seqs 512 \
--isäntä 0.0.0.0 \
--portti 8000 \
--enable-auto-tool-choice \
--työkalu-kutsu-jäsen qwen3_coder \
--reasoning-parser-plugin <NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4-Path>/super_v3_reasoning_parser.py \
--päättely-jäsentäjä super_v3 \
-cc '{"cudagraph_mode":0}'
92
Johtavat
Rankkaus
Suosikit
