DApp Store | Piattaforma Web3 per eventi e giochi | OKX Wallet

Argomenti di tendenza

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN-13,25%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

elie

elie

elie23 gen, 13:47

dire che deepseek ha costruito moe sopra mixtral è una sciocchezza, il documento di deepseek moe è uscito solo 3 giorni dopo che il documento di mixtral è stato pubblicato su arxiv inoltre, il documento di mixtral non ha letteralmente alcun dettaglio sul training, quindi "abbiamo rilasciato tutto ciò che era necessario per ricostruire questo tipo di architettura" è anche falso, il documento dice solo "utilizziamo l'architettura google gshard con routing più semplice e moe in ogni layer" e nessun dettaglio su dati, iperparametri, token di training, ablation ecc.. l'architettura che deepseek moe utilizza è in realtà diversa da gshard e più sparsa (deepseek moe non cita nemmeno mixtral nel documento, ma gshard) non dico che mixtral non abbia avuto un impatto su moe, ma ciò che viene detto in questa intervista è un po' una riscrittura della narrativa per dire "ma guarda, china/deepseek sta copiando anche mistral!"

29

elie

elie19 gen, 23:28

Il team di GLM sta ora utilizzando MLA!! Questo è un modello piuttosto pazzesco con 30 miliardi di parametri totali e circa 4 miliardi attivi. Ottima release In termini di struttura, ha approssimativamente la stessa profondità di glm4.5 air e qwen3 30B A3B, 64 esperti totali invece di 128, ma attivano solo 5 invece di 9 se si conta l'esperto condiviso.

Z.ai

Z.ai19 gen, 22:44

Presentiamo GLM-4.7-Flash: il tuo assistente locale per la programmazione e l'agente. Stabilendo un nuovo standard per la classe 30B, GLM-4.7-Flash bilancia alte prestazioni con efficienza, rendendolo l'opzione di distribuzione leggera perfetta. Oltre alla programmazione, è anche raccomandato per la scrittura creativa, la traduzione, compiti a lungo termine e giochi di ruolo. Pesi: API: - GLM-4.7-Flash: Gratuito (1 concorrenza) - GLM-4.7-FlashX: Alta velocità e conveniente

60

elie

elie13 gen, 03:14

lfg, deepseek utilizza Muon nell'impostazione di ablazione del loro ultimo articolo

122

Principali

Ranking

Preferiti

©2017 - 2026 WEB3.OKX.COM

Italiano 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Ulteriori informazioni su OKX Web 3

Scarica Academy Chi siamo Lavora con noi Contattaci Termini di servizio Informativa X (ex Twitter)

Prodotto

Dashboard del portafoglio Swap OKX NFT Guadagna Scopri Costruisci Explorer Sicurezza

Assistenza

Centro assistenza Verifica ufficiale Comunicazioni Schema commissioni DEX Connettiti con OKX Portafoglio bitcoin Portafoglio Ethereum Portafoglio Solana