Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
Parametrii de încorporare sunt din nou la modă, lucrare uimitoare de la LongCat Flash, în paralel cu Engram-ul lui DeepSeek!
diferențe cu Engram:
-> fără embedding pe strat (au încercat embedding per strat (PLE), dar nu au obținut câștiguri reale)
-> fuziune cu medie simplă în locul poartelor dinamice conștiente de context din Engram
-> încorporații doar la stratul de intrare (spre deosebire de injectarea stratului mai profund din Engram)
la fel ca Engram:
-> mai multe sub-tabele hash pentru a reduce coliziunile
- > lege similară de scalare în formă de U pentru MoE vs alocarea N-gramelor
-> benefic doar la raritate mare (când MoE are randamente descrescătoare)
Alte constatări cheie:
-> modelele mai late beneficiază mai mult; Modelele mai profunde văd randamente descrescătoare
-> trebuie să amplifice ieșirea de încorporare (√D sau LayerNorm) pentru a preveni înecul de către primul strat de atenție
- > dimensiunea vocabularului trebuie să evite multiplii întregi ai vocabularului de bază (spike-uri de coliziune)
-> ≤50% din parametrii embedding-urilor, altfel câștigă MoE pur
-> sinergie plăcută cu decodarea speculativă


Meituan LongCat29 ian. 2026
🚀 Scalarea încorporațiilor, nu doar experților—introducând o nouă cale pentru LLM-uri eficiente.
Constatare cheie: În scenarii cu raritate ridicată, încorporarea N-gramurilor oferă o frontieră Pareto mai bună decât simpla adăugare a mai multor experți MoE.
Prin urmare, introducem LongCat-Flash-Lite—primul model opensource construit pe această perspectivă.
⚙️ 68,5B Total Params(37,13B non-embedding) | 2.9B~4.5B Activ
📊 Performanță ridicată: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75
📃 Fereastră de context 256K (alimentată de YARN)
✨ Optimizat pentru Agentic/Coding, puternic în raționament general
⚡ ~700 token/s viteză maximă de inferență
Rezultatul: Obține performanță competitivă la scara sa, cu un cost și o latență semnificativ mai mici.
Față de îmbrățișare:
Raport tehnic:



55
15T are același buget ca pre-antrenamentul inițial al kimi k2, din câte știu, este prima dată când o echipă folosește deschis un punct de control anterior pentru a construi un model și mai puternic
Vom continua să vedem tot mai mult această intervenție de tip "antrenament intermediar" pentru a schimba arc, modalități, context lung mai bun, date agențice mai bune...
Acest lucru este foarte incitant și face posibil ca alte companii să se alăture cursei (cursor?) datorită furnizorului precum Kimi (și altora precum Deepseek, Meituan, Zai,...) care au lansat modelul de bază

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)27 ian. 2026
> construit prin pre-antrenament continuu pe aproximativ 15 trilioane de jetoane vizuale și text mixte deasupra Kimi-K2-Base
… Este practic un model complet nou, cu abilități noi. Jetoane de 30T @ Muon.
«Kimi K2.5 reprezintă un pas semnificativ spre AGI pentru comunitatea open-source»
Wow, ok

63
Limită superioară
Clasament
Favorite

