Os três artigos recentes publicados pela DeepSeek são todos assinados por Liang Wenfeng, e o conteúdo dos artigos também é muito interessante. Especialmente no artigo sobre o Engram, o DeepSeek é equivalente a trazer um "dicionário" para o modelo para a sala de exame, liberando a capacidade cerebral mecânica para problemas difíceis. Mas descobriram que, se o modelo era só sobre memória (Engram), era um nerd mecanicista que não conseguia pensar de jeito nenhum. Mas se for tudo inferência (MOE), muito poder computacional é desperdiçado para obter conhecimento fixo como "onde fica a capital da China". Quantas memórias você precisa levar para a prova? A DeepSeek desenvolveu um modelo para a proporção áurea entre "memória" e "pensamento". A melhor proporção medida no final foi: 75% para pensamento e 25% para memória. Essa conclusão pode não ser apenas adequada para o modelo, mas também valer a pena ser refletida. Quando uma pessoa se lembra de todos os detalhes, é equivalente a não ter espaço para pensar. O pensamento lógico, apropriadamente abstrato, é a fonte do progresso humano. Quando uma pessoa não tem nenhum conhecimento, ela só desperdiça sua energia mental pensando nas coisas mais básicas, e seu cérebro fica parado. A DeepSeek mediu que, após adicionar um dicionário para reduzir o pensamento, o modelo possui uma profundidade adicional de pensamento equivalente à de uma rede de 7 camadas. Inesperadamente, a amplitude do conhecimento aumenta a profundidade do pensamento dessa forma. Muito inspirador.