O LFM2.5 tem um preenchimento bastante rápido num laptop M5 com mlx-lm. O modelo de precisão total processa um prompt de 28k tokens em < 6 segundos (>5k tok/s). Pode ser um modelo muito interessante para dispositivos pequenos com aceleradores neurais.