Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
parametry osadzenia znów są na czołowej pozycji, niesamowity artykuł od LongCat Flash, równocześnie z Engramem DeepSeek!
differences with Engram:
-> brak osadzenia na poziomie warstwy (próbowali osadzenia na poziomie warstwy (PLE), ale nie przyniosło to realnych korzyści)
-> prosta fuzja średnia zamiast dynamicznego, kontekstowo świadomego bramkowania Engramu
-> osadzenia tylko na warstwie wejściowej (w porównaniu do głębszego wstrzykiwania Engramu)
to samo co Engram:
-> wiele podtabel haszujących, aby zredukować kolizje
-> podobne prawo skalowania w kształcie litery U dla MoE w porównaniu do alokacji N-gramów
-> korzystne tylko przy wysokiej rzadkości (gdy MoE osiąga malejące zwroty)
inne kluczowe odkrycia:
-> szersze modele korzystają bardziej; głębsze modele widzą malejące zwroty
-> należy wzmocnić wyjście osadzenia (√D lub LayerNorm), aby zapobiec przytłoczeniu przez pierwszą warstwę uwagi
-> rozmiar słownika musi unikać całkowitych wielokrotności podstawowego słownika (szczyty kolizji)
-> ≤50% parametrów do osadzeń, w przeciwnym razie czyste MoE wygrywa
-> miła synergia z spekulacyjnym dekodowaniem


Meituan LongCat29 sty 2026
🚀 Skalowanie osadzeń, a nie tylko ekspertów—wprowadzamy nową ścieżkę dla efektywnych LLM-ów.
Kluczowe odkrycie: W scenariuszach o wysokiej rzadkości, osadzenia N-gram dają lepszą granicę Pareto niż po prostu dodawanie większej liczby ekspertów MoE.
Dlatego wprowadzamy LongCat-Flash-Lite—pierwszy model open source zbudowany na tym wniosku.
⚙️ 68,5B całkowitych parametrów (37,13B bez osadzeń) | 2,9B~4,5B aktywnych
📊 Wysoka wydajność: SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75
📃 256K okno kontekstowe (zasilane YARN)
✨ Optymalizowany do Agentic/Coding, silny w ogólnym rozumowaniu
⚡ ~700 tokenów/s szczytowa prędkość wnioskowania
Rezultat: Osiąga konkurencyjną wydajność w swoim zakresie przy znacznie niższych kosztach i opóźnieniach.
Hugging Face:
Raport techniczny:



54
15T to ten sam budżet, co początkowe wstępne szkolenie kimi k2, o ile mi wiadomo, to pierwszy raz, kiedy zespół otwarcie wykorzystuje wcześniejszy punkt kontrolny do zbudowania jeszcze silniejszego modelu.
Będziemy coraz częściej widzieć takie "interwencje w trakcie szkolenia", aby zmieniać architekturę, modalności, lepszy długi kontekst, lepsze dane agentowe..
To bardzo ekscytujące i umożliwia innym firmom dołączenie do wyścigu (kursor?) dzięki dostawcom takim jak kimi (i innym, takim jak deepseek, meituan, zai,...) wydającym model bazowy.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)27 sty 2026
> zbudowany poprzez ciągłe wstępne szkolenie na około 15 bilionach mieszanych tokenów wizualnych i tekstowych na Kimi-K2-Base
…To zasadniczo całkowicie nowy model z nowymi możliwościami. 30T tokenów @ Muon.
«Kimi K2.5 reprezentuje znaczący krok w kierunku AGI dla społeczności open-source»
wow ok

62
Najlepsze
Ranking
Ulubione

