Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le compromis biais-variance a un détail manquant !
Peu d'ingénieurs en ML en sont conscients.
Considérons l'ajustement d'un modèle de régression polynomiale sur un ensemble de données fictif, disons, y=sin(x) + bruit.
Comme le montre le premier graphique de l'image, à mesure que nous augmentons le degré (m) :
- La perte d'entraînement va descendre à zéro.
- La perte de test (ou de validation) va diminuer puis augmenter.
Mais remarquez ce qui se passe lorsque nous continuons à augmenter le degré (m) :
↳ La perte de test diminue à nouveau (comme montré dans le deuxième graphique)
C'est ce qu'on appelle le "phénomène de double descente" et il est couramment observé dans les modèles d'apprentissage profond.
C'est contre-intuitif car cela montre qu'augmenter la complexité du modèle peut améliorer la performance de généralisation.
À ma connaissance, c'est encore une question ouverte. Il n'est pas entièrement clair pourquoi les réseaux de neurones présentent ce comportement.
Il existe certaines théories autour de la régularisation, cependant, comme celle-ci :
Il se pourrait que le modèle applique une sorte de régularisation implicite. En conséquence, il peut se concentrer précisément sur un nombre approprié de paramètres pour la généralisation.
En fait, vous pouvez essayer vous-même :
- Créez un petit ensemble de données fictif de taille n.
- Entraînez une régression polynomiale de degré m, en commençant par 1 jusqu'à une valeur supérieure à n.
- Tracez la perte de test et la perte d'entraînement pour chaque m.
👉 À vous : Aviez-vous déjà entendu parler de la double descente ?

Voici l'horodatage exact où Ilya Sutskever en parle dans le podcast de Lex Fridman :

6,06K
Meilleurs
Classement
Favoris

