Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
15T to ten sam budżet, co początkowe wstępne szkolenie kimi k2, o ile mi wiadomo, to pierwszy raz, kiedy zespół otwarcie wykorzystuje wcześniejszy punkt kontrolny do zbudowania jeszcze silniejszego modelu.
Będziemy coraz częściej widzieć takie "interwencje w trakcie szkolenia", aby zmieniać architekturę, modalności, lepszy długi kontekst, lepsze dane agentowe..
To bardzo ekscytujące i umożliwia innym firmom dołączenie do wyścigu (kursor?) dzięki dostawcom takim jak kimi (i innym, takim jak deepseek, meituan, zai,...) wydającym model bazowy.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)27 sty, 13:54
> zbudowany poprzez ciągłe wstępne szkolenie na około 15 bilionach mieszanych tokenów wizualnych i tekstowych na Kimi-K2-Base
…To zasadniczo całkowicie nowy model z nowymi możliwościami. 30T tokenów @ Muon.
«Kimi K2.5 reprezentuje znaczący krok w kierunku AGI dla społeczności open-source»
wow ok

20
mówienie, że deepseek zbudował moe na bazie mixtral to nonsens, dokument deepseek moe ukazał się zaledwie 3 dni po opublikowaniu dokumentu mixtral na arxiv
ponadto dokument mixtral nie zawiera dosłownie żadnych szczegółów dotyczących treningu, więc "udostępniliśmy wszystko, co było potrzebne do odbudowy tego rodzaju architektury" jest również fałszywe, dokument mówi tylko "używamy architektury google gshard z prostszym routowaniem i moe na każdej warstwie" i nie zawiera szczegółów dotyczących danych, hiperparametrów, tokenów treningowych, ablacj itp..
architektura, którą wykorzystuje deepseek moe, jest w rzeczywistości inna niż gshard i bardziej rzadka (deepseek moe nawet nie cytuje mixtral w dokumencie, ale gshard)
nie mówię, że mixtral nie miał wpływu na moe, ale to, co zostało powiedziane w tym wywiadzie, jest trochę przepisaniem narracji, aby powiedzieć "ale spójrz, Chiny/deepseek też kopiują mistral!"

33
Zespół GLM korzysta teraz z MLA!! To naprawdę szalony model z 30 miliardami parametrów i około 4 miliardami aktywnymi. Bardzo ładne wydanie
jeśli chodzi o strukturę, jest to w przybliżeniu ta sama głębokość co glm4.5 air i qwen3 30B A3B, 64 całkowitych ekspertów zamiast 128, ale aktywne są tylko 5 zamiast 9, jeśli liczyć wspólnego eksperta.


Z.ai19 sty, 22:44
Przedstawiamy GLM-4.7-Flash: Twój lokalny asystent do kodowania i agentów.
Ustanawiając nowy standard dla klasy 30B, GLM-4.7-Flash łączy wysoką wydajność z efektywnością, co czyni go idealną lekką opcją wdrożeniową. Oprócz kodowania, jest również zalecany do twórczego pisania, tłumaczenia, zadań z długim kontekstem i odgrywania ról.
Wagi:
API:
- GLM-4.7-Flash: Darmowy (1 współbieżność)
- GLM-4.7-FlashX: Wysoka prędkość i przystępna cena

64
Najlepsze
Ranking
Ulubione
