Li rapidamente o último artigo da DeepSeek () Vou explicar de forma superficial, se houver erros, por favor, corrijam-me. Este estudo (mHC) oferece, essencialmente, uma solução de atualização de modelo "de baixo custo e alto retorno" para a indústria de IA. Efeito do modelo: Aumenta significativamente a "capacidade de pensamento" e se torna mais inteligente: Sem alterar a infraestrutura básica do modelo, o mHC melhorou significativamente a capacidade de processamento da IA. Nos testes que refletem raciocínio lógico e compreensão de leitura (como BBH e DROP), o desempenho aumentou de 2,1% a 2,3%. Isso significa que o modelo se comportará mais como um "especialista" do que como uma "máquina de repetir" ao lidar com tarefas complexas de lógica comercial e análise financeira. Custo de treinamento: Baixa perda de desempenho em troca de alta rentabilidade: Embora essa nova tecnologia aumente a largura de transmissão de informações, através de uma profunda otimização colaborativa de software e hardware, ao treinar um grande modelo de 27 bilhões de parâmetros, o custo de tempo aumentou apenas cerca de 6,7%. Para os investidores, isso significa que, com um pequeno custo adicional de eletricidade e poder computacional, é possível obter um desempenho de modelo de nível superior. Estabilidade de treinamento: Evita perdas de ativos causadas por "colapsos de treinamento" e diz adeus a travamentos: Tentativas semelhantes anteriores (como HC) também tentaram ampliar a largura da estrada de informações, mas devido à falta de restrições, os grandes modelos frequentemente "perdiam a cabeça" ou colapsavam (perda saltando) durante o treinamento, resultando em desperdício de recursos computacionais valiosos. O mHC, através de um "feitiço de equilíbrio" matemático (restrição de variedade), garante que o modelo seja extremamente robusto durante o treinamento, protegendo o investimento caro em computação de colapsos sistêmicos. Demanda de memória: Resolve o "gargalo de hardware" com astúcia algorítmica e usa a memória de forma inteligente: Essa tecnologia ampliou as "faixas" de informação em 4 vezes, o que teoricamente exigiria muita memória. No entanto, a DeepSeek, através de uma técnica chamada "recomputação seletiva", economizou uma quantidade significativa de espaço de memória gráfica com um pouco de tempo de computação extra. Isso permite que placas gráficas de alta gama, como H100/H200, executem essa arquitetura mais complexa sem aumentar os custos de hardware. Potencial futuro: Quebra o limite tradicional de "acumular máquinas" e cria novos pontos de crescimento: Anteriormente, a melhoria do desempenho do modelo dependia principalmente de "acumular dados" e "acumular GPUs". O mHC abriu um terceiro caminho: otimizar a estrutura interna do modelo. Ele provou que, ao melhorar a forma como as camadas se conectam, mesmo sem aumentar cegamente o tamanho do modelo, é possível continuar extraindo mais dividendos de desempenho. Analogia sob a perspectiva do investidor: Se os grandes modelos são uma fábrica, as atualizações anteriores dependiam do aumento do número de trabalhadores (aumento de parâmetros). O mHC, por outro lado, reorganizou a linha de produção e os canais logísticos da fábrica sem aumentar muito o número de estações de trabalho. Ele ampliou a esteira em várias vezes para transportar mais peças e, através de um sistema de controle de tráfego preciso, garantiu que a fábrica não parasse devido a congestionamentos logísticos. O resultado final é: a eficiência da fábrica aumentou significativamente, enquanto os custos de eletricidade e manutenção de equipamentos quase não mudaram.
"mHC não reduziu fundamentalmente a necessidade de memória para IA, mas, ao contrário, aumentou a pressão sobre a memória devido ao seu design de múltiplos fluxos" @rickawsb Olhei e, teoricamente, este mHC precisa de mais memória.
538