Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 pourrait être la première fois que l'artéfact exact a obtenu trois rapports techniques différents – l'original, un article de *Nature*, et une révision complète. Beaucoup de techniques expliquées ici, infra, prompts… Mais le plus grand gagnant ? @TheZvi ! Ils *sont* en fait conscients que la sécurité est une chose.


7 janv., 15:39
Le document de DeepSeek-R1 a été mis à jour il y a 2 jours, passant de 22 pages à 86 pages et ajoutant une quantité substantielle de détails.
Le nouveau contenu couvre des sujets tels que l'auto-évolution de DeepSeek-R1-Zero, l'évaluation de DeepSeek-R1, une analyse plus approfondie et la distillation de DeepSeek-R1.
DeepSeek-R1 : Incitation à la capacité de raisonnement dans les LLM via l'apprentissage par renforcement
Document :


Le 31 janvier, @EpochAIResearch a fait une estimation des coûts de RL qui ont été intégrés dans R1. Depuis l'article de Nature, nous savions que c'était 3 fois le budget total. En quoi est-ce incorrect exactement ?
- Supposé Batch = 1024 et taille de groupe = 64, comme dans DeepSeekMath. En réalité : B=512, G=16.
- seulement 1700 étapes pour R1.


@EpochAIResearch bien sûr @EgeErdil2 est bien calibré et épistémiquement prudent, donc il savait exactement ce qui est susceptible de se produire

@EpochAIResearch @EgeErdil2 Je pense que ce qu'Ege a mal fait, c'est de sous-estimer qu'ils étaient très clairs sur le fait que cela n'avait pas réussi sur de petits modèles (ils partagent plus de détails maintenant ; r1-lite-preview était probablement Qwen2.5-32B). Ergo V3 était beaucoup plus efficace en termes d'échantillons.
Un prior de niveau méta est plus intéressant. Étaient-ils en retard ?


865
Meilleurs
Classement
Favoris
