Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O DeepSeek R1 pode ser a primeira vez que o artefato exato recebeu três relatórios técnicos diferentes – o original, um artigo da *Nature* e uma revisão completa. Muitas técnicas explicadas aqui, infra, prompts… Mas o maior vencedor? @TheZvi! Eles *estão* de fato cientes de que a segurança é uma coisa.


7/01, 15:39
O artigo do DeepSeek-R1 foi atualizado há 2 dias, expandindo de 22 páginas para 86 páginas e adicionando uma quantidade substancial de detalhes.
O novo conteúdo abrange tópicos como a auto-evolução do DeepSeek-R1-Zero, avaliação do DeepSeek-R1, análise adicional e destilação do DeepSeek-R1.
DeepSeek-R1: Incentivando a Capacidade de Raciocínio em LLMs através do Aprendizado por Reforço
Artigo:


No dia 31 de janeiro, @EpochAIResearch fez uma estimativa dos custos de RL que foram para o R1. Desde o artigo da Nature, sabíamos que isso era 3x o orçamento total. Errado como exatamente?
- Assumiu Batch = 1024 e Tamanho do Grupo = 64, como em DeepSeekMath. Na verdade: B=512, G=16.
- apenas 1700 passos para o R1.


@EpochAIResearch claro que @EgeErdil2 está bem calibrado e epistemicamente cuidadoso, então ele sabia exatamente o que é provável que aconteça

@EpochAIResearch @EgeErdil2 Eu acho que o que o Ege fez de errado foi subestimar que eles foram muito claros que não teve sucesso em modelos pequenos (eles compartilham mais detalhes agora; r1-lite-preview foi provavelmente Qwen2.5-32B). Portanto, o V3 foi muito mais eficiente em termos de amostras.
Um prior em nível meta é mais interessante. Estavam eles atrasados?


817
Top
Classificação
Favoritos
