🎯 Har nettopp sluppet en ny preprint som beviser LR-overføring under μP. -> Problemet: Når du trener store nevrale nettverk, er et av de vanskeligste spørsmålene: hvilken læringshastighet bør jeg bruke? [1/n] 🧵 Lenke: