Astăzi lansăm cel mai mare model LFM2 al nostru: LFM2-24B-A2B 🐘 > 24B parametri totali > 2,3 miliarde active per token > Construit pe arhitectura noastră hibridă, conștientă de hardware LFM2 Combină designul rapid și eficient din punct de vedere al memoriei LFM2 cu o configurație Mix of Experts, astfel încât doar 2,3B parametri activează fiecare rulare. Rezultatul: eficiență de top, inferență rapidă a marginilor și scalare log-liniară previzibilă, toate într-o amprentă MoE activă de 32GB. 🧵
Odată cu această lansare, familia LFM2 acoperă aproape două ordine de mărime: de la LFM2-350M la LFM2-24B-A2B. Fiecare pas în scară a adus câștiguri constante de calitate față de benchmark-urile standard. Am proiectat LFM2-24B-A2B pentru a încăpea 32 GB RAM, făcându-l rulabil pe laptopuri și desktopuri de consum cu procesor grafic integrat (iGPU) și unitate dedicată de procesare neurală (NPU). > LFM2-24B-A2B extinde familia LFM2 de la 350M → 24B > Aproape două ordine de mărime de scară cu îmbunătățiri consistente, log-liniare ale calității, pe parcursul benchmark-urilor
Rețetă de scalare: Mergi mai adânc. Adaugă experți. Păstrează calea activă înclinată. Am scalat LFM2-24B-A2B mergând mai adânc (24→40 straturi) și dublând experții (32→64 pe bloc MoE), păstrând în același timp dimensiunea ascunsă (2048), rutarea top-4 și un raport atenție:conv 1:3 fix. > Parametrii totali cresc cu 3× (8,3B→24B) > Parametrii activi cresc doar ~1,5× (1,5B→2,3B) Costul de inferență urmărește calea activă (nu numărul total de parametri), menținând latența și energia aliniate cu constrângerile reale de implementare. Capacitatea se scalează. Calculul per token rămâne slab.
Am livrat acest model ca un model tradițional de instruire (fără urme de raționament) folosind o post-instruire ușoară. În larg: > GPQA Diamond > MMLU-Pro > IFEval > IFBench > GSM8K > MATH-500 Calitatea se îmbunătățește log-liniar de la 350M → 24B. Această gamă de aproape 100× de parametri confirmă un comportament previzibil de scalare al arhitecturii hibride LFM2, fără efectul plafonului de modele mici.
LFM2-24B-A2B livrează cu suport day-zero pentru llama.cpp, vLLM și SGLang, CPU sau GPU din cutie, cu cuantizări GGUF (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16). Pe CPU (AMD Ryzen AI Max+ 395, Q4_K_M), susține ~93 tok/s la 8K context, depășind modelele MoE de dimensiuni similare, menținând totodată o scalare puternică pe context lung.
Pe procesor (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp), LFM2-24B-A2B menține un debit puternic de preumplutură în contexte de 1K→8K (~1.132 tok/s la 8K), rămânând competitiv cu modelele MoE de dimensiuni similare. Pe GPU (H100 SXM5, SGLang/vLLM), demonstrează o scalare favorabilă a debitului de ieșire sub servicii realiste de concurență ridicată, esențială pentru implementări eficiente din punct de vedere al costurilor și sarcini RLVR.
Pe GPU (H100 SXM5, vLLM), LFM2-24B-A2B scalează la ~26,8K debit total de tokenuri (tok/s) la 1024 cereri concurente (1024-maxim-input-tokens / 512-max-output-tokens), depășind modelele MoE de dimensiuni similare sub batching continuu. Măsurat cu preumplerea intercalată realistă + decodare — construită pentru sarcini de servire la scară de producție și RL.
61