Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 pode ser a primeira vez que o artefato veio exatamente recebeu três relatórios técnicos diferentes – original, artigo da *Nature* e uma revisão completa. Muitas técnicas explicadas aqui, infraestrutura, prompts... Mas qual é o maior vencedor? @TheZvi! Eles *estão* realmente cientes de que segurança existe.


7 de jan., 15:39
O artigo do DeepSeek-R1 foi atualizado há 2 dias, expandindo de 22 para 86 páginas e adicionando uma quantidade substancial de detalhes.
O novo conteúdo aborda temas como a autoevolução do DeepSeek-R1-Zero, avaliação do DeepSeek-R1, análises adicionais e destilação do DeepSeek-R1.
DeepSeek-R1: Incentivando a Capacidade de Raciocínio em LLMs por Meio de Aprendizagem por Reforço
Papel:


Em 31 de janeiro, @EpochAIResearch fez uma estimativa dos custos do RL que entrou no R1. Desde o artigo da Nature, sabíamos que isso era 3 vezes o orçamento total. Errado como exatamente?
- Assumido que o lote = 1024 & tamanho do grupo = 64, como no DeepSeekMath. Na verdade: B=512, G=16.
- apenas 1700 passos para R1.


@EpochAIResearch claro que @EgeErdil2 é bem calibrado e epistemicamente cuidadoso, então ele sabia exatamente o que provavelmente aconteceria

@EpochAIResearch @EgeErdil2 acho que o que a Ege fez de errado foi subestimar que eles deixaram muito claro que não foi bem-sucedido em modelos pequenos (eles compartilham mais detalhes agora; a prévia do r1-lite provavelmente foi Qwen2.5-32B). Ergo V3 era muito mais eficiente em amostras.
Um nível meta prévio é mais interessante. Eles estavam atrasados?


838
Melhores
Classificação
Favoritos
