Opravdu působivé vydání hybridních malých modelů od týmu Qwen jako vždy! Lidé se ptají, jak se srovnávají v rychlosti, latenci a paměti s LFM od @liquidai pro nasazení přímo na zařízení? Zde je rychlý přehled Apple M3 Ultra: > LFM2.5-1.2B je v dekódování o 52 % rychlejší než Qwen3.5-0.8B. > LFM2-700M je při dekódování o 71 % rychlejší než Qwen3.5-0.8B > LFM2-2.6B má při dekódování stejnou rychlost jako Qwen3.5-2B > LFM2-700M využívá o 46 % méně špičkové paměť než Qwen3.5-0.8B > LFM2-2.6B používá o 21 % méně špičkové paměť než Qwen3.5-2B > předplnění lfms se stejnou velikostí parametru je obecně o 12 % rychlejší než Qwen3.5 Navrhli jsme řadu LFM2 s naším hardwarově integrovaným meta AI přístupem, který nám umožňuje najít nejefektivnější architekturu pro daný procesor bez kompromisů na kvalitě. Tento test probíhá na Apple M3 Ultra, 512 GB sjednocené paměti Konfigurace: > 512 promptových tokenů, 128 generačních tokenů, > 5 pokusů na konfiguraci > Framework: MLX (mlx-lm / mlx-vlm)