LFM2.5 hat eine ziemlich schnelle Vorbefüllung auf einem M5-Laptop mit mlx-lm. Das Vollpräzisionsmodell verarbeitet einen 28k-Token-Prompt in < 6 Sekunden (>5k tok/s). Könnte ein sehr schönes Modell für kleine Geräte mit neuronalen Beschleunigern sein.