Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Tutoriales diarios e información sobre DS, ML, LLM y RAG • Cofundador @dailydoseofds_ • IIT Varanasi • ex-Ingeniero de IA @ MastercardAI
¡El equilibrio entre sesgo y varianza tiene un detalle que falta!
No muchos ingenieros de ML lo conocen.
Considera ajustar un modelo de regresión polinómica en algún conjunto de datos ficticio, por ejemplo, y=sin(x) + ruido.
Como se muestra en el primer gráfico de la imagen, a medida que aumentamos el grado (m):
- La pérdida de entrenamiento bajará a cero.
- La pérdida de prueba (o validación) disminuirá y luego aumentará.
Pero fíjate en lo que ocurre a medida que seguimos aumentando el grado (m):
↳ La pérdida en test disminuye de nuevo (mostrado en el segundo gráfico)
Esto se denomina el "fenómeno de doble descenso" y se observa comúnmente en modelos de aprendizaje profundo.
Es contraintuitivo, ya que muestra que aumentar la complejidad del modelo puede mejorar el rendimiento de la generalización.
Hasta donde yo sé, esta sigue siendo una pregunta abierta. No está del todo claro por qué las redes neuronales presentan este comportamiento.
Sin embargo, existen algunas teorías sobre la regularización, como esta:
Podría ser que el modelo aplique algún tipo de regularización implícita. Como resultado, puede enfocarse con precisión en un número adecuado de parámetros para la generalización.
De hecho, puedes intentarlo tú mismo:
- Crear un pequeño conjunto de datos ficticio de tamaño n.
- Entrenar una regresión polinómica de grado m, partiendo de 1 a un valor mayor que n.
- Graficar la pérdida en pruebas y la pérdida de entrenamiento para cada m.
👉 Te lo toca: ¿Habías oído hablar de doble descendencia antes?

5.07K
Pocas personas saben esto sobre la regularización de L2:
(Pista: NO es solo una técnica de regularización)
La mayoría de los modelos pretenden usar regularización L2 para una sola cosa:
↳ Reducir el sobreajuste.
Sin embargo, la regularización L2 es un gran remedio para la multicolinealidad.
La multicolinealidad surge cuando:
→ Dos (o más) características están altamente correlacionadas, O,
→ Dos (o más) características pueden predecir otra característica.
Para entender cómo la regularización L2 aborda la multicolinealidad, consideremos un conjunto de datos con dos características y una variable dependiente (y):
→ característica A
→ característica B → Altamente correlacionada con la característica A.
→ y = alguna combinación lineal de la característicaA y la característicaB.
Ignorando el término de intercepción, nuestro modelo lineal tendrá dos parámetros (θ₁, θ₂).
El objetivo es encontrar aquellos parámetros específicos que minimizan la suma residual de cuadrados (RSS).
Así que, ¿qué tal si hacemos lo siguiente ↓
1. Representaremos el valor RSS para muchas combinaciones diferentes de parámetros (θ₁, θ₂). Esto creará un gráfico 3D:
→ eje x → θ₁
→ eje y → θ₂
→ eje z → valor RSS
2. Determinaremos visualmente la combinación (θ₁, θ₂) que minimiza el valor RSS.
Sin la penalización de L2, obtenemos el primer gráfico en la imagen de abajo.
¿Notas algo?
La gráfica en 3D tiene un valle.
Existen múltiples combinaciones de valores de parámetros (θ₁, θ₂) para las cuales RSS es el mínimo.
Con la penalización de L2, obtenemos el segundo gráfico en la imagen de abajo.
¿Notas algo diferente esta vez?
Usar regularización L2 eliminó el valle que vimos antes.
Esto proporciona un mínimo global al error RSS.
Y así es como la regularización L2 nos ayudó a eliminar la multicolinealidad.
👉 Te toca a ti: ¿Sabías esto sobre la regularización de L2?

23.19K
Populares
Ranking
Favoritas

