Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dnes uvádíme na trh náš největší model LFM2: LFM2-24B-A2B 🐘
> Celkové parametry 24B
> 2,3 miliardy na token
> Postaveno na naší hybridní, hardwarově uvědomělé architektuře LFM2
Kombinuje rychlý a paměťově úsporný design LFM2 s mixem expertů, takže při každém běhu se aktivují pouze 2,3B parametry.
Výsledek: nejlepší efektivita ve třídě, rychlá edge inference a předvídatelné log-lineární škálování, to vše v 32GB, 2B aktivním MoE prostoru.
🧵

S tímto vydáním se rodina LFM2 rozprostírá téměř o dva řády velikosti: od LFM2-350M po LFM2-24B-A2B. Každý krok nahoru v měřítku přinesl konzistentní zlepšení kvality oproti standardním benchmarkům.
Navrhli jsme LFM2-24B-A2B tak, aby pojmul 32 GB RAM, což umožňuje provoz na spotřebitelských noteboocích a stolních počítačích s integrovaným grafickým procesorem (iGPU) a dedikovanou neuronovou procesorovou jednotkou (NPU).
> LFM2-24B-A2B rozšiřuje rodinu LFM2 z 350M → parametrů 24B
> Téměř dva řády škálování s konzistentními, logaritmickými kvalitativními zlepšeními napříč benchmarky
Recept na škálování: Jděte hlouběji. Přidejte odborníky. Udržujte aktivní dráhu štíhlou.
LFM2-24B-A2B jsme škálovali hlubšími vrstvami (24→40 vrstev) a zdvojnásobením expertů (32→64 na MoE blok), přičemž jsme ponechali skrytou velikost (2048), top-4 směrování a poměr pozornosti k konvici 1:3 pevně daný.
> Celkový počet parametrů roste o 3× (8,3B→24B)
> Aktivní parametry rostou pouze o ~1,5× (1,5B→2,3B)
Náklady na inferenci sledují aktivní cestu (nikoli celkový počet parametrů), udržují latenci a energii v souladu s reálnými omezeními nasazení.
Kapacitní škály. Výpočet na token zůstává štíhlý.

Dodali jsme to jako tradiční instrukční model (bez stopových argumentů) s lehkým post-trainingem.
Přes ně:
> GPQA diamant
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
Kvalita se lineárně zlepšuje z 350M → 24B.
Tento téměř 100× parametrový rozsah potvrzuje předvídatelné škálování hybridní architektury LFM2, bez efektu stropu malého modelu.

LFM2-24B-A2B je dodáván s podporou day-zero napříč llama.cpp, vLLM a SGLang, CPU nebo GPU hned po vybalení, s GGUF kvantizacemi (Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, F16).
Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M) udržuje rychlost ~93 tok/s při 8K kontextu, což překonává podobně velké modely MoE při zachování silného škálování v dlouhém kontextu.

Na CPU (AMD Ryzen AI Max+ 395, Q4_K_M, llama.cpp) LFM2-24B-A2B udržuje silnou propustnost předplnění v kontextech 1K→8K (~1 132 tok/s při 8K), čímž zůstává konkurenceschopný vůči podobně velkým modelům MoE.
Na GPU (H100 SXM5, SGLang/vLLM) prokazuje příznivé škálování propustnosti výstupu při realistickém rychlém servisu s vysokou souběžností, což je klíčové pro nákladově efektivní nasazení a RLVR pracovní zátěže.

Na GPU (H100 SXM5, vLLM) LFM2-24B-A2B škáluje na ~26,8K celkové propustnosti tokenů (tok/s) při 1024 současných požadavcích (1024-max-vstup-tokenů / 512-max-výstupních tokenů), čímž překonává podobně velké modely MoE při kontinuálním dávkování.
Měřeno realistickým prokládaným prefill+dekódováním — navrženo pro produkční observování a RL pracovní zátěže.

65
Top
Hodnocení
Oblíbené
