DeepSeek R1 podría ser la primera vez que el artefacto exacto recibió tres informes técnicos diferentes: el original, un artículo de *Nature* y una revisión completa. Muchas técnicas explicadas aquí, infra, prompts… ¿Pero el mayor ganador? @TheZvi! Ellos *son* de hecho conscientes de que la seguridad es un tema.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 ene, 15:39
El documento de DeepSeek-R1 se actualizó hace 2 días, ampliándose de 22 páginas a 86 páginas y añadiendo una cantidad sustancial de detalles. El nuevo contenido abarca temas como la auto-evolución de DeepSeek-R1-Zero, la evaluación de DeepSeek-R1, un análisis más profundo y la destilación de DeepSeek-R1. DeepSeek-R1: Incentivando la Capacidad de Razonamiento en LLMs a través del Aprendizaje por Refuerzo Documento:
El 31 de enero, @EpochAIResearch hizo una estimación de los costos de RL que se incluyeron en R1. Desde el artículo de Nature sabíamos que eso era 3 veces el presupuesto total. ¿Incorrecto en qué exactamente? - Supuso Batch = 1024 y tamaño de grupo = 64, como en DeepSeekMath. En realidad: B=512, G=16. - solo 1700 pasos para R1.
@EpochAIResearch por supuesto @EgeErdil2 está bien calibrado y es epistemológicamente cuidadoso, así que sabía exactamente lo que probablemente iba a suceder
@EpochAIResearch @EgeErdil2 Creo que lo que Ege hizo mal fue subestimar que estaban muy claros en que no tuvo éxito en modelos pequeños (ahora comparten más detalles; r1-lite-preview probablemente era Qwen2.5-32B). Por lo tanto, V3 fue mucho más eficiente en muestras. Un prior a nivel meta es más interesante. ¿Estaban detrás?
834