DApp Store | Hub da Web3 para eventos e jogos | OKX Wallet

Tópicos em alta

Uma coisa bem ousada que o DeepSeek faz é mostrar o Engram indo muito bem até 27B, e depois 40B, que praticamente não melhora mais, e eles dizem «eh, está pouco treinado». Acho que o perfil de capacidade das camadas de Engramas versus FFNs tem efeitos não triviais em diferentes escalas.

Isso me lembra DS-MoE, onde eles viam a variante «meio ativada» como algo muito ambicioso, levando a ideia ao limite. Naturalmente, eventualmente o V2 tinha exatamente essa proporção de escarrasidade, e o V3 era mais esparso.

271

Melhores

Classificação

Favoritos