DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

DeepSeek R1 pode ser a primeira vez que o artefato veio exatamente recebeu três relatórios técnicos diferentes – original, artigo da *Nature* e uma revisão completa. Muitas técnicas explicadas aqui, infraestrutura, prompts... Mas qual é o maior vencedor? @TheZvi! Eles *estão* realmente cientes de que segurança existe.

Em 31 de janeiro, @EpochAIResearch fez uma estimativa dos custos do RL que entrou no R1. Desde o artigo da Nature, sabíamos que isso era 3 vezes o orçamento total. Errado como exatamente? - Assumido que o lote = 1024 & tamanho do grupo = 64, como no DeepSeekMath. Na verdade: B=512, G=16. - apenas 1700 passos para R1.

@EpochAIResearch claro que @EgeErdil2 é bem calibrado e epistemicamente cuidadoso, então ele sabia exatamente o que provavelmente aconteceria

@EpochAIResearch @EgeErdil2 acho que o que a Ege fez de errado foi subestimar que eles deixaram muito claro que não foi bem-sucedido em modelos pequenos (eles compartilham mais detalhes agora; a prévia do r1-lite provavelmente foi Qwen2.5-32B). Ergo V3 era muito mais eficiente em amostras. Um nível meta prévio é mais interessante. Eles estavam atrasados?

838

Melhores

Classificação

Favoritos