БАГАТО ЗАХОПЛЕННЯ: Перший квант Minimax m2.5 NVFP4 на huggingface. 83tok/s однопотоковий VLLM на двох RTX 6000. Або приблизно вдвічі швидше, ніж Mac на 512 ГБ, яка коштує вдвічі дешевше. Але Mac не може виконувати 1000+ tok/s через 32+ одночасні з'єднання. Обмеження потужності @ 550W на відеокарту для цього тесту. lukealonso/MiniMax-M2.5-NVFP4 Рецепт vllm, який я використав у альтернативному тексті зображення