O LFM2.5 tem preenchimento bem rápido em um laptop M5 com mlx-lm. O modelo de precisão completa processa um prompt de 28k tokens em < 6 segundos (>5k tok/s). Pode ser um modelo muito bom para dispositivos pequenos com aceleradores neurais.