Backend CUDA v MLX se zlepšuje. Je to obzvlášť příjemné, pokud oceňujete rychlé startovací časy. Ale obecně je to také docela rychlé. Tady je Qwen3 4B ve fp8, který běží na mém DGX Spark. - Zpracoval 18,5 tisíce tokenů za < 4 sekundy - Generuje rychlostí 32,5 tok/s s kontextem 18,5k
Také je to velmi jednoduché na rozchod:
265