DeepSeek R1 pode ser a primeira vez que o artefato veio exatamente recebeu três relatórios técnicos diferentes – original, artigo da *Nature* e uma revisão completa. Muitas técnicas explicadas aqui, infraestrutura, prompts... Mas qual é o maior vencedor? @TheZvi! Eles *estão* realmente cientes de que segurança existe.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 de jan., 15:39
O artigo do DeepSeek-R1 foi atualizado há 2 dias, expandindo de 22 para 86 páginas e adicionando uma quantidade substancial de detalhes. O novo conteúdo aborda temas como a autoevolução do DeepSeek-R1-Zero, avaliação do DeepSeek-R1, análises adicionais e destilação do DeepSeek-R1. DeepSeek-R1: Incentivando a Capacidade de Raciocínio em LLMs por Meio de Aprendizagem por Reforço Papel:
Em 31 de janeiro, @EpochAIResearch fez uma estimativa dos custos do RL que entrou no R1. Desde o artigo da Nature, sabíamos que isso era 3 vezes o orçamento total. Errado como exatamente? - Assumido que o lote = 1024 & tamanho do grupo = 64, como no DeepSeekMath. Na verdade: B=512, G=16. - apenas 1700 passos para R1.
@EpochAIResearch claro que @EgeErdil2 é bem calibrado e epistemicamente cuidadoso, então ele sabia exatamente o que provavelmente aconteceria
@EpochAIResearch @EgeErdil2 acho que o que a Ege fez de errado foi subestimar que eles deixaram muito claro que não foi bem-sucedido em modelos pequenos (eles compartilham mais detalhes agora; a prévia do r1-lite provavelmente foi Qwen2.5-32B). Ergo V3 era muito mais eficiente em amostras. Um nível meta prévio é mais interessante. Eles estavam atrasados?
838