Uma coisa bem ousada que o DeepSeek faz é mostrar o Engram indo muito bem até 27B, e depois 40B, que praticamente não melhora mais, e eles dizem «eh, está pouco treinado». Acho que o perfil de capacidade das camadas de Engramas versus FFNs tem efeitos não triviais em diferentes escalas.
Isso me lembra DS-MoE, onde eles viam a variante «meio ativada» como algo muito ambicioso, levando a ideia ao limite. Naturalmente, eventualmente o V2 tinha exatamente essa proporção de escarrasidade, e o V3 era mais esparso.
271