PALJON JÄNNITYSTÄ: Ensimmäinen Minimax m2.5 NVFP4 quant huggingfacessa. 83tok/s single stream vllm dual RTX 6000 -järjestelmällä. Tai noin kaksinkertaisen nopeuden verrattuna Mac 512gb -järjestelmään, joka maksaa puolet vähemmän. Paitsi että Mac ei pysty tekemään 1000+ tok/s 32+ samanaikaisen yhteyden kautta. Tehoraja @ 550W per näytönohjain tässä testissä. lukealonso/MiniMax-M2.5-NVFP4 vllm-resepti, jota käytin kuvan alt-tekstissä