LFM2.5 har ganske rask prefill på en M5-laptop med mlx-lm. Full precision-modellen behandler en 28k token-prompt på < 6 sekunder (>5k tok/s). Kan være en veldig fin modell for små enheter med nevrale akseleratorer.