VELDIG SPENNT: Første Minimax m2.5 NVFP4 kvant på huggingface. 83 tok/s enkeltstrøm vllm på dobbel RTX 6000. Eller omtrent dobbelt så høy hastighet som et Mac 512 GB-system som koster halvparten så mye. Bortsett fra at Mac-en heller ikke kan gjøre 1000+ tok/s via 32+ samtidige tilkoblinger. Strømgrense @ 550W per GPU for denne testen. lukealonso/MiniMax-M2.5-NVFP4 Vllm-oppskriften jeg brukte i bilde-alternativ tekst