MiniMax-M2.5 NVFP4 chạy trên 2x RTX 6000 > 83 tokens/giây cho một luồng đơn > cho phép tối đa 32 người dùng đồng thời > đẩy 1000+ tokens/giây > điều này tốn ~2x 512GB Mac Studios > ngoại trừ Mac = 1 prompt tại một thời điểm > và thậm chí chậm hơn tokens/giây > mô hình trên HF > lukealonso/MiniMax-M2.5-NVFP4