Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apple щойно довела, що немає потреби в гіперпараметрах великих моделей, адже одноразового пошуку малої моделі достатньо!
У цій статті представлено Complete(d)P — параметризацію навчання «за масштабом», яка дозволяє налаштовувати гіперпараметри (LR, AdamW, згасання ваги, init, залишкові множники) на невеликій моделі та використовувати їх без змін при масштабуванні ширини, глибини, розміру пакету та горизонту навчання, навіть для кожного модуля.
В експериментах налаштування на 50M переносяться на ~600 разів більші серії, зменшуючи тренування до однакових втрат на ~2,3x у малих масштабах і даючи ~1,32x прискорення при 7,2B

Найкращі
Рейтинг
Вибране
