SEHR AUFREGEND: Erster Minimax m2.5 NVFP4 Quant auf Huggingface. 83tok/s einzelner Stream vllm auf dualen RTX 6000. Oder etwa doppelt so schnell wie ein Mac 512GB System, das halb so viel kostet. Außer dass der Mac auch nicht 1000+ tok/s über 32+ gleichzeitige Verbindungen machen kann. Leistungsgrenze @ 550W pro GPU für diesen Test. lukealonso/MiniMax-M2.5-NVFP4 vllm-Rezept, das ich im Bild-Alt-Text verwendet habe