Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek acaba de solucionar uno de los problemas más antiguos de la IA.
(utilizando un algoritmo de 60 años)
Aquí está la historia:
Cuando el aprendizaje profundo despegó, los investigadores se encontraron con un muro. No puedes simplemente apilar capas sin fin. Las señales o explotan o desaparecen. Entrenar redes profundas era casi imposible.
ResNets resolvió esto en 2016 con conexiones residuales:
salida = entrada + lo que la capa aprendió
Ese "+" crea una carretera directa para la información. Por eso ahora podemos entrenar redes con cientos de capas.
Recientemente, los investigadores se preguntaron: ¿y si tuviéramos múltiples carreteras en lugar de una?
Las Hiper-Conexiones (HC) expandieron ese único carril en 4 carriles paralelos con matrices aprendibles que mezclan información entre flujos.
Las ganancias de rendimiento fueron reales. Pero había un problema:
Esas matrices de mezcla se acumulan a través de las capas. Una pequeña amplificación del 5% por capa se convierte en 18x después de 60 capas. El artículo midió una amplificación que alcanzaba 3000x. El entrenamiento colapsa.
¿Las soluciones habituales? Recorte de gradientes. Inicialización cuidadosa. Esperar que las cosas funcionen.
Estos son trucos. Y los trucos no escalan.
DeepSeek volvió a los principios básicos. ¿Qué restricción matemática garantizaría la estabilidad?
La respuesta estaba en un artículo de 1967: el algoritmo de Sinkhorn-Knopp.
Forza a las matrices de mezcla a ser "doblemente estocásticas", donde las filas y columnas suman 1.
Los resultados:
- Inestabilidad de 3000x reducida a 1.6x
- Estabilidad garantizada por matemáticas, no por suerte
- Solo 6.7% de sobrecarga adicional de entrenamiento
Sin trucos. Solo matemáticas.
He compartido el enlace al artículo en el siguiente tweet.

papel:
312
Parte superior
Clasificación
Favoritos
