Virkelig imponerende lansering av hybride små modeller fra Qwen-teamet som alltid! Folk spør hvordan de sammenlignes i hastighet, latens og minne med @liquidai LFM-er for distribusjon på enheten? Her er en rask presentasjon av Apple M3 Ultra: > LFM2.5-1.2B er 52 % raskere i dekoding enn Qwen3.5-0.8B. > LFM2-700M er 71 % raskere enn Qwen3.5-0.8B ved dekoding > LFM2-2.6B har samme hastighet som Qwen3.5-2B ved dekoding > LFM2-700M bruker 46 % mindre toppminne enn Qwen3.5-0.8B > LFM2-2.6B bruker 21 % mindre toppminne enn Qwen3.5-2B > lfms-prefill med samme parameterstørrelse er vanligvis 12 % raskere enn Qwen3.5 Vi designet LFM2-serien med vår hardware-in-the-loop meta-AI-designtilnærming som lar oss finne den mest effektive arkitekturen for en gitt prosessor uten kvalitetsofre. Denne testen utføres på Apple M3 Ultra, 512 GB samlet minne Konfigurasjon: > 512 prompt-tokens, 128 generasjonstokens, > 5 forsøk per konfigurasjon > Rammeverk: MLX (mlx-lm / mlx-vlm)