Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
parametry osadzenia znów są na czołowej pozycji, niesamowity artykuł od LongCat Flash, równocześnie z Engramem DeepSeek!
differences with Engram:
-> brak osadzenia na poziomie warstwy (próbowali osadzenia na poziomie warstwy (PLE), ale nie przyniosło to realnych korzyści)
-> prosta fuzja średnia zamiast dynamicznego, kontekstowo świadomego bramkowania Engramu
-> osadzenia tylko na warstwie wejściowej (w porównaniu do głębszego wstrzykiwania Engramu)
to samo co Engram:
-> wiele podtabel haszujących, aby zredukować kolizje
-> podobne prawo skalowania w kształcie litery U dla MoE w porównaniu do alokacji N-gramów
-> korzystne tylko przy wysokiej rzadkości (gdy MoE osiąga malejące zwroty)
inne kluczowe odkrycia:
-> szersze modele korzystają bardziej; głębsze modele widzą malejące zwroty
-> należy wzmocnić wyjście osadzenia (√D lub LayerNorm), aby zapobiec przytłoczeniu przez pierwszą warstwę uwagi
-> rozmiar słownika musi unikać całkowitych wielokrotności podstawowego słownika (szczyty kolizji)
-> ≤50% parametrów do osadzeń, w przeciwnym razie czyste MoE wygrywa
-> miła synergia z spekulacyjnym dekodowaniem


Meituan LongCat29 sty, 00:26
🚀 Skalowanie osadzeń, a nie tylko ekspertów—wprowadzamy nową ścieżkę dla efektywnych LLM-ów.
Kluczowe odkrycie: W scenariuszach o wysokiej rzadkości, osadzenia N-gram dają lepszą granicę Pareto niż po prostu dodawanie większej liczby ekspertów MoE.
Dlatego wprowadzamy LongCat-Flash-Lite—pierwszy model open source zbudowany na tym wniosku.
⚙️ 68,5B całkowitych parametrów (37,13B bez osadzeń) | 2,9B~4,5B aktywnych
📊 Wysoka wydajność: SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75
📃 256K okno kontekstowe (zasilane YARN)
✨ Optymalizowany do Agentic/Coding, silny w ogólnym rozumowaniu
⚡ ~700 tokenów/s szczytowa prędkość wnioskowania
Rezultat: Osiąga konkurencyjną wydajność w swoim zakresie przy znacznie niższych kosztach i opóźnieniach.
Hugging Face:
Raport techniczny:



1
15T to ten sam budżet, co początkowe wstępne szkolenie kimi k2, o ile mi wiadomo, to pierwszy raz, kiedy zespół otwarcie wykorzystuje wcześniejszy punkt kontrolny do zbudowania jeszcze silniejszego modelu.
Będziemy coraz częściej widzieć takie "interwencje w trakcie szkolenia", aby zmieniać architekturę, modalności, lepszy długi kontekst, lepsze dane agentowe..
To bardzo ekscytujące i umożliwia innym firmom dołączenie do wyścigu (kursor?) dzięki dostawcom takim jak kimi (i innym, takim jak deepseek, meituan, zai,...) wydającym model bazowy.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)27 sty, 13:54
> zbudowany poprzez ciągłe wstępne szkolenie na około 15 bilionach mieszanych tokenów wizualnych i tekstowych na Kimi-K2-Base
…To zasadniczo całkowicie nowy model z nowymi możliwościami. 30T tokenów @ Muon.
«Kimi K2.5 reprezentuje znaczący krok w kierunku AGI dla społeczności open-source»
wow ok

26
mówienie, że deepseek zbudował moe na bazie mixtral to nonsens, dokument deepseek moe ukazał się zaledwie 3 dni po opublikowaniu dokumentu mixtral na arxiv
ponadto dokument mixtral nie zawiera dosłownie żadnych szczegółów dotyczących treningu, więc "udostępniliśmy wszystko, co było potrzebne do odbudowy tego rodzaju architektury" jest również fałszywe, dokument mówi tylko "używamy architektury google gshard z prostszym routowaniem i moe na każdej warstwie" i nie zawiera szczegółów dotyczących danych, hiperparametrów, tokenów treningowych, ablacj itp..
architektura, którą wykorzystuje deepseek moe, jest w rzeczywistości inna niż gshard i bardziej rzadka (deepseek moe nawet nie cytuje mixtral w dokumencie, ale gshard)
nie mówię, że mixtral nie miał wpływu na moe, ale to, co zostało powiedziane w tym wywiadzie, jest trochę przepisaniem narracji, aby powiedzieć "ale spójrz, Chiny/deepseek też kopiują mistral!"

36
Najlepsze
Ranking
Ulubione
