ОЧЕНЬ ВОЛНУЮЩЕ: Первый Minimax m2.5 NVFP4 квант на huggingface. 83 ток/с в одном потоке vllm на двух RTX 6000. Или примерно в два раза быстрее системы Mac на 512 ГБ, которая стоит вдвое меньше. За исключением того, что Mac не может также обрабатывать 1000+ ток/с через 32+ параллельных соединения. Ограничение по мощности @ 550 Вт на GPU для этого теста. lukealonso/MiniMax-M2.5-NVFP4 рецепт vllm, который я использовал в альтернативном тексте изображения