FOARTE ENTUZIASMAT: Primul Minimax m2.5 NVFP4 quant pe fața de îmbrățișare. 83tok/s single stream vllm pe dual RTX 6000. Sau cam de două ori mai rapid decât un Mac de 512gb care costă jumătate din preț. Doar că Mac-ul nu poate face și 1000+ tok/s prin 32+ conexiuni simultane. Limită de putere @ 550W pe placă pentru acest test. lukealonso/MiniMax-M2.5-NVFP4 Rețeta vllm pe care am folosit-o în textul alt al imaginii