LFM2.5 heeft een vrij snelle voorinvulling op een M5-laptop met mlx-lm. Het volledige precisie model verwerkt een prompt van 28k tokens in < 6 seconden (>5k tok/s). Het zou een heel mooi model kunnen zijn voor kleine apparaten met neurale versnellers.