mlx-lm wird zu einem ziemlich leistungsstarken kleinen Inferenz-Framework! Die neueste Version fügt tensor-parallele LLM-Inferenz für die Verwendung mit dem neuen latenzarmen JACCL-Backend in MLX hinzu (h/t @angeloskath). Außerdem wurde die Unterstützung für Transformers V5 aktualisiert!