Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡El tradeoff entre sesgo y varianza tiene un detalle faltante!
No muchos ingenieros de ML lo conocen.
Considera ajustar un modelo de regresión polinómica en un conjunto de datos ficticio, digamos, y=sin(x) + ruido.
Como se muestra en la primera gráfica de la imagen, a medida que aumentamos el grado (m):
- La pérdida de entrenamiento bajará a cero.
- La pérdida de prueba (o validación) disminuirá y luego aumentará.
Pero observa lo que sucede a medida que seguimos aumentando el grado (m):
↳ La pérdida de prueba disminuye nuevamente (mostrado en la segunda gráfica)
Esto se llama el "fenómeno de doble descenso" y se observa comúnmente en modelos de aprendizaje profundo.
Es contraintuitivo ya que muestra que aumentar la complejidad del modelo puede mejorar el rendimiento de generalización.
Hasta donde sé, esta sigue siendo una pregunta abierta. No está del todo claro por qué las redes neuronales exhiben este comportamiento.
Sin embargo, hay algunas teorías sobre la regularización, como esta:
Podría ser que el modelo aplique algún tipo de regularización implícita. Como resultado, puede centrarse precisamente en un número adecuado de parámetros para la generalización.
De hecho, puedes intentarlo tú mismo:
- Crea un pequeño conjunto de datos ficticio de tamaño n.
- Entrena una regresión polinómica de grado m, comenzando desde 1 hasta un valor mayor que n.
- Grafica la pérdida de prueba y la pérdida de entrenamiento para cada m.
👉 Te toca a ti: ¿Habías oído hablar del doble descenso antes?

Aquí está la marca de tiempo exacta donde Ilya Sutskever habla sobre ello en el podcast de Lex Fridman:

6,05K
Parte superior
Clasificación
Favoritos

