Así que eliges la muerte
Responder a nivel de objeto @TheZvi Técnicamente, la DSA podría ser un salto importante que haga que los contextos a escala Gemini sean trivialmente baratos, incluso para modelos de generaciones anteriores. Advertencias: - no estamos seguros *si* escala a 1M+ (pero experiencia en V3.2≥V3.1 a pesar de preentrenamiento idéntico, y experiencia en V3.2>>, así que es muy probable que sí) - No estamos seguros de cómo se puede entrenar sin que se aproveche de la atención densa. Quizá DeepSeek lo sepa. Creo que V4 no usará DSA, se llama explícitamente prototipo. En el peor de los casos, también es sensato preentrenar con toda la atención => extender => apurar, asumes más coste en preentrenamiento para inferir permanentemente más barato. - KDA de Kimi o GDN+ de Qwen o algo similar podrían ser incluso mejores que DSA+/NSA+ Módulo estas advertencias, esto no es una reducción de precio al 2x, estoy siendo sarcástico. Más bien 10 veces. La atención escasa que no se degrada es algo bastante importante. En cuanto a la velocidad, es un punto vacío desde la perspectiva del modelo. DeepSeek no está interesada en ofrecer el mejor producto. Sirven con grandes lotes de H800/Ascend. Puedes ponerlo en hardware americano y conseguir 60-150 t/s, o en Cerebras y conseguir 1000 t/s al estilo GLM, sin subir el coste. Esta arquitectura es inherentemente rápida (atención superficial y barata), solo que DeepSeek la atiende lentamente. Sobre la inteligencia de frontera, digo que estas ventajas de «usar» de la frontera —principalmente la codificación agente, pero puedes cubrir más dominios de la misma manera— son producto del gasto de cómputo en pasos de RL y de iterar a través de entornos sintéticos. Tienen la receta. Informan que se gasta el ≈10% del coste previo a la formación en Speciale. Eso son ≈ 600.000 dólares. Se informa que Grok 4 utilizó el 100% de Grok 3, o decenas de cientos de millones. Claramente ha sido muy ineficiente con Grok, pero creo que DeepSeek podría llegar al 100% fácilmente, la receta es conocida. Probablemente no quieran desperdiciarlo en una base obsoleta, ya que señalan que sigue siendo un cuello de botella en el conocimiento. Me parece divertida la actitud despreocupada hacia el rendimiento en matemáticas de mi opinión (o resolver problemas de Erdos al nivel de que el solucionador humano dice «sí, básicamente esa es mi solución»). ¿No se suponía que todos debíamos esperar la AGI de la investigación matemática independiente? ¿O ahora solo es programación? Sorprendentemente, esa es la capacidad más interesante para estimar velocidades de despegue. Pero bueno, yo creo en el despegue lento, la superación personal se topará con problemas logísticos sin importar dónde empecemos. La principal contribución aquí, como he dicho, es que anuncian la creencia de que, fundamentalmente, han resuelto la formación de LLMs de finales de 2025 como programa de investigación, y podrían llegar al nivel actual occidental o más allá simplemente invirtiendo más computación (además de pequeños ajustes en la eficiencia de los tokens). En teoría, su anuncio de que finalmente se dedican a una formación a mayor escala puede interpretarse como «y eso es lo que estamos haciendo ahora». Pero eso está por verse.
@TheZvi > a pesar de que el preentrenamiento es idéntico y post-formación, corrección
2.86K