Tänään julkaisemme suurimman LFM2-mallimme: LFM2-24B-A2B 🐘 > 24B kokonaisparametrit > 2,3B aktiivista per token > Rakennettu hybridin, laitteistopohjaisen LFM2-arkkitehtuurimme pohjalta Se yhdistää LFM2:n nopean ja muistitehokkaan suunnittelun Mixture of Experts -kokoonpanoon, joten jokaisella ajokerralla aktivoi vain 2,3B parametria. Tuloksena oli luokkansa paras tehokkuus, nopea reunapäättely ja ennustettava log-lineaarinen skaalaus, kaikki 32GB:ssa, 2B-aktiivisessa MoE-jalanjäljessä. 🧵
Tämän julkaisun myötä LFM2-perhe kattaa lähes kaksi kertaluokkaa: LFM2-350M:stä LFM2-24B-A2B:hen. Jokainen mittakaava-askel on tuonut johdonmukaisia laadunparannuksia standardeissa. Suunnittelimme LFM2-24B-A2B:n mahtumaan 32 GB RAM-muistiin, mikä tekee siitä käytettävissä kuluttajakannettavissa ja pöytäkoneissa, joissa on integroitu grafiikkaprosessori (iGPU) ja omistettu neuroprosessoriyksikkö (NPU). > LFM2-24B-A2B laajentaa LFM2-perheen 350M:stä 24B:n → > Lähes kaksi kertaluokkaa mittakaavaa ja johdonmukaiset, logarititaariset laadunparannukset eri vertailuarvoissa
Skaalausresepti: Mene syvemmälle. Lisää asiantuntijoita. Pidä aktiivinen polku tiiviisti. Skaalasimme LFM2-24B-A2B:tä menemällä syvemmälle (24→40 kerrosta) ja tuplaamalla asiantuntijat (32→64 per MoE-lohko), pitäen piilevän koon (2048), top-4-reitityksen ja 1:3 huomio:konv-suhteen kiinteänä. > Kokonaisparametrit kasvavat 3× (8,3B→24B) > Aktiiviset parametrit kasvavat vain ~1,5× (1,5B→2,3B) Päättelykustannus seuraa aktiivista polkua (ei kokonaisparametrien määrää), pitäen viiveen ja energian linjassa todellisten käyttöönottorajoitteiden kanssa. Kapasiteettiskaala. Per token laskenta pysyy niukkana.
Toimitimme tämän perinteisenä ohjemallina (ilman päättelyjäljiä) kevyen jälkikoulutuksen avulla. Toisella puolella: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Laatu paranee log-lineaarisesti 350M→stä 24B:hen. Tämä lähes 100× parametrialue vahvistaa hybridi-LFM2-arkkitehtuurin ennustettavan skaalauskäyttäytymisen, ei pienmallin kattoilmiötä.
LFM2-24B-A2B toimitetaan nollapäivätuella llama.cpp, vLLM:ssä ja SGLangissa, CPU:lla tai GPU:lla suoraan paketista, GGUF-kvantisoinnilla (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Prosessorilla (AMD Ryzen AI Max+ 395, Q4_K_M) se ylläpitää ~93 tok/s 8K-kontekstissa, päihittää samankokoiset MoE-mallit ja säilyttää vahvan pitkän kontekstin skaalausta.
Suorittimella (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) LFM2-24B-A2B ylläpitää vahvaa esitäyttöä 1K→8K konteksteissa (~1 132 tok/s 8K:lla), ja se on kilpailukykyinen samankokoisten MoE-mallien kanssa. GPU:lla (H100 SXM5, SGLang/vLLM) se osoittaa suotuisaa ulosmenon skaalausta realistisessa korkean samanaikaisuuden palvelussa, mikä on ratkaisevan tärkeää kustannustehokkaan käyttöönoton ja RLVR-kuormien kannalta.
GPU:lla (H100 SXM5, vLLM) LFM2-24B-A2B skaalautuu ~26,8K kokonaistokenin läpimenoon (tok/s) 1024 samanaikaisella pyynnöllä (1024-max-input-tokenit / 512-max-output-tokenit), mikä päihittää samankokoiset MoE-mallit jatkuvassa eräajossa. Mitattuna realistisella interleaved-prefill+decodella — suunniteltu tuotantomittakaavaisille tarjoilu- ja RL-työkuormille.
84