Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apple vient de prouver qu'il n'est pas nécessaire de réaliser des recherches d'hyperparamètres sur de grands modèles, car une recherche sur un petit modèle suffit !
Cet article présente Complete(d)P, une paramétrisation des paramètres d'entraînement "correcte en échelle" qui vous permet de régler les hyperparamètres (LR, AdamW, poids de décroissance, init, multiplicateurs résiduels) sur un petit modèle et de les réutiliser sans changement lors de l'augmentation de la largeur, de la profondeur, de la taille de lot et de l'horizon d'entraînement, même par module.
Dans les expériences, les réglages trouvés à 50M se transfèrent à des exécutions ~600x plus grandes, réduisant l'entraînement à la même perte d'environ ~2,3x à petite échelle et offrant un gain de vitesse d'environ ~1,32x à 7,2B

Meilleurs
Classement
Favoris
