Não estou a brincar, quando vi os planos originais da ANthropic, a escala da construção da DC e a previsão de rentabilidade, pensei comigo mesmo "bem, se esse é o plano, então eles não são ambiciosos o suficiente e não vão conseguir competir com a Sama".
Para alguns, isso parecia uma opinião estúpida. Bem, vamos ver :)
"Mas as despesas, incluindo aquelas com o treinamento e a execução dos seus modelos de IA, também estão a crescer mais rapidamente, superando a receita. Como resultado, a Anthropic adiou a expectativa de ser positiva em fluxo de caixa para 2028,"
Não ficarei surpreso se for 2030-31 para ambas as empresas :)
Obrigado pela cobertura @theinformation @srimuppidi @amir
Acho que tenho que escrever uma explicação em formato longo sobre o Engram do DeepSeek.
Gostem deste post se quiserem uma explicação sobre
- como os gradientes fluem para as incorporações acessadas através de funções hash
- ou o que eles fundem em um único FP8 MMA
- ou POR QUE CARGAS É QUE ELES USAM CONVOLUÇÕES NO TRANSFORMER
Quando o RETRO foi lançado, pensei que a recuperação é um grande problema para os LLMs, para reduzir o número de parâmetros enquanto aumenta a profundidade do conhecimento dos modelos. Fiquei surpreso ao ver que as empresas evitaram essa ideia.
A Whale traz a Recuperação para a mesa:
> Mais notavelmente, enquanto se espera que o módulo de memória ajude na recuperação de conhecimento (por exemplo, MMLU +3.4; CMMLU +4.0), observamos ganhos ainda maiores em raciocínio geral (por exemplo, BBH +5.0; ARC-Challenge +3.7) e domínios de código/matemática (HumanEval +3.0; MATH +2.4). Análises mecanicistas revelam que o Engram alivia as camadas iniciais da espinha dorsal da reconstrução estática, aprofundando efetivamente a rede para raciocínios complexos.