LFM2.5 ha un prefill piuttosto veloce su un laptop M5 con mlx-lm. Il modello a precisione completa elabora un prompt di 28k token in < 6 secondi (>5k tok/s). Potrebbe essere un modello molto interessante per dispositivi piccoli con acceleratori neurali.