mlx-lm sta diventando un potente piccolo framework di inferenza! L'ultima versione aggiunge l'inferenza LLM tensor-parallel da utilizzare con il nuovo back-end JACCL a bassa latenza in MLX (h/t @angeloskath). Aggiornato anche per supportare Transformers V5!