LFM2.5 are preumplere destul de rapidă pe un laptop M5 cu mlx-lm. Modelul de precizie completă procesează un prompt de 28k token în < 6 secunde (>5k tok/s). Ar putea fi un model foarte bun pentru dispozitive mici cu acceleratoare neuronale.