LFM2.5 a un pré-remplissage assez rapide sur un ordinateur portable M5 avec mlx-lm. Le modèle de pleine précision traite un prompt de 28k tokens en < 6 secondes (>5k tok/s). Cela pourrait être un très bon modèle pour les petits appareils avec des accélérateurs neuronaux.