LFM2.5 tiene un prellenado bastante rápido en un portátil M5 con mlx-lm. El modelo de precisión completa procesa un aviso de 28k tokens en < 6 segundos (>5k tok/s). Podría ser un modelo muy interesante para dispositivos pequeños con aceleradores neuronales.