LFM2.5 tiene un prellenado bastante rápido en un portátil M5 con mlx-lm. El modelo de precisión completa procesa un prompt de 28k tokens en < 6 segundos (>5k tok/s). Podría ser un modelo muy bueno para dispositivos pequeños con aceleradores neuronales.