LFM2.5 memiliki prefill yang cukup cepat pada laptop M5 dengan mlx-lm. Model presisi penuh memproses prompt token 28k dalam < 6 detik (>5k tok/s).
Bisa menjadi model yang sangat bagus untuk perangkat kecil dengan akselerator saraf.
Hari ini, kami merilis LFM2.5, keluarga model pondasi kecil di perangkat kami yang paling mumpuni.
Ini dibuat untuk mendukung aplikasi agen pada perangkat yang andal: kualitas lebih tinggi, latensi lebih rendah, dan dukungan modalitas yang lebih luas di kelas parameter ~1B.
> LFM2.5 dibangun di atas arsitektur hibrida yang dioptimalkan perangkat LFM2 kami
> Prapelatihan diskalakan dari token 10T → 28T
> Pembelajaran penguatan yang diperluas pasca-pelatihan
> Langit-langit yang lebih tinggi untuk instruksi berikut
🧵
Rilis pertama mlx-lm pada tahun 2026 dikemas:
pip install -U mlx-lm
- Banyak model baru (h/t @kernelpool, @JohnMai_Dev)
- Dukungan yang jauh lebih baik untuk pemanggilan alat dan penalaran di mlx_lm.server
- Dukungan untuk kuantisasi mxfp8 dan nvfp4 (memerlukan mlx pra-rilis)