Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

O DeepSeek R1 pode ser a primeira vez que o artefato exato recebeu três relatórios técnicos diferentes – o original, um artigo da *Nature* e uma revisão completa. Muitas técnicas explicadas aqui, infra, prompts… Mas o maior vencedor? @TheZvi! Eles *estão* de fato cientes de que a segurança é uma coisa.

No dia 31 de janeiro, @EpochAIResearch fez uma estimativa dos custos de RL que foram para o R1. Desde o artigo da Nature, sabíamos que isso era 3x o orçamento total. Errado como exatamente? - Assumiu Batch = 1024 e Tamanho do Grupo = 64, como em DeepSeekMath. Na verdade: B=512, G=16. - apenas 1700 passos para o R1.

@EpochAIResearch claro que @EgeErdil2 está bem calibrado e epistemicamente cuidadoso, então ele sabia exatamente o que é provável que aconteça

@EpochAIResearch @EgeErdil2 Eu acho que o que o Ege fez de errado foi subestimar que eles foram muito claros que não teve sucesso em modelos pequenos (eles compartilham mais detalhes agora; r1-lite-preview foi provavelmente Qwen2.5-32B). Portanto, o V3 foi muito mais eficiente em termos de amostras. Um prior em nível meta é mais interessante. Estavam eles atrasados?

817

Top

Classificação

Favoritos