Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek acaba de solucionar uno de los problemas más antiguos de la IA.
(usando un algoritmo de 60 años)
Esta es la historia:
Cuando el deep learning despegó, los investigadores se toparon con un muro. No puedes simplemente apilar capas sin fin. Las señales explotan o desaparecen. Entrenar redes profundas era casi imposible.
ResNets solucionó esto en 2016 con conexiones residuales:
salida = entrada + lo que aprendió la capa
Ese "+" crea una vía directa para la información. Por eso ahora podemos entrenar redes con cientos de capas.
Recientemente, los investigadores preguntaron: ¿y si tuviéramos varias autopistas en lugar de una?
Hyper-Connections (HC) amplió ese carril único a 4 carriles paralelos con matrices aprendibles que mezclan información entre flujos.
Las mejoras de rendimiento fueron reales. Pero había un problema:
Esas matrices de mezcla se acumulan a lo largo de las capas. Una pequeña amplificación del 5% por capa se convierte en 18x después de 60 capas. El artículo medía la amplificación alcanzando 3000 veces. El entrenamiento se derrumba.
¿Las soluciones habituales? Recorte de gradiente. Inicialización cuidadosa. Espero que las cosas salgan bien.
Son trucos. Y los hacks no escalan.
DeepSeek volvió a los primeros principios. ¿Qué restricción matemática garantizaría la estabilidad?
La respuesta estaba en un artículo de 1967: el algoritmo de Sinkhorn-Knopp.
Obliga a que las matrices de mezcla sean "doblemente estocásticas", donde filas y columnas suman 1.
Los resultados:
- 3000x de inestabilidad reducida a 1,6x
- Estabilidad garantizada por las matemáticas, no por la suerte
- Solo un 6,7% adicional de costes adicionales de formación
Sin trucos. Solo matemáticas.
He compartido el enlace al artículo en el próximo tuit.

papel:
314
Populares
Ranking
Favoritas
