LFM2.5 har ganska snabb prefill på en M5-laptop med mlx-lm. Full precision-modellen bearbetar en 28k token-prompt på < 6 sekunder (>5k tok/s). Det skulle kunna vara en mycket bra modell för små enheter med neurala acceleratorer.