mlx-lm se está convirtiendo en un potente pequeño marco de inferencia. La última versión añade inferencia LLM en paralelo de tensores para su uso con el nuevo back-end JACCL de baja latencia en MLX (h/t @angeloskath). ¡También se actualizó para soportar Transformers V5!