O DeepSeek R1 pode ser a primeira vez que o artefato exato recebeu três relatórios técnicos diferentes – o original, um artigo da *Nature* e uma revisão completa. Muitas técnicas explicadas aqui, infra, prompts… Mas o maior vencedor? @TheZvi! Eles *estão* de fato cientes de que a segurança é uma coisa.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7/01, 15:39
O artigo do DeepSeek-R1 foi atualizado há 2 dias, expandindo de 22 páginas para 86 páginas e adicionando uma quantidade substancial de detalhes. O novo conteúdo abrange tópicos como a auto-evolução do DeepSeek-R1-Zero, avaliação do DeepSeek-R1, análise adicional e destilação do DeepSeek-R1. DeepSeek-R1: Incentivando a Capacidade de Raciocínio em LLMs através do Aprendizado por Reforço Artigo:
No dia 31 de janeiro, @EpochAIResearch fez uma estimativa dos custos de RL que foram para o R1. Desde o artigo da Nature, sabíamos que isso era 3x o orçamento total. Errado como exatamente? - Assumiu Batch = 1024 e Tamanho do Grupo = 64, como em DeepSeekMath. Na verdade: B=512, G=16. - apenas 1700 passos para o R1.
@EpochAIResearch claro que @EgeErdil2 está bem calibrado e epistemicamente cuidadoso, então ele sabia exatamente o que é provável que aconteça
@EpochAIResearch @EgeErdil2 Eu acho que o que o Ege fez de errado foi subestimar que eles foram muito claros que não teve sucesso em modelos pequenos (eles compartilham mais detalhes agora; r1-lite-preview foi provavelmente Qwen2.5-32B). Portanto, o V3 foi muito mais eficiente em termos de amostras. Um prior em nível meta é mais interessante. Estavam eles atrasados?
817