Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

alphaXiv
Дослідження високої точності
Apple щойно довела, що немає потреби в гіперпараметрах великих моделей, адже одноразового пошуку малої моделі достатньо!
У цій статті представлено Complete(d)P — параметризацію навчання «за масштабом», яка дозволяє налаштовувати гіперпараметри (LR, AdamW, згасання ваги, init, залишкові множники) на невеликій моделі та використовувати їх без змін при масштабуванні ширини, глибини, розміру пакету та горизонту навчання, навіть для кожного модуля.
В експериментах налаштування на 50M переносяться на ~600 разів більші серії, зменшуючи тренування до однакових втрат на ~2,3x у малих масштабах і даючи ~1,32x прискорення при 7,2B

1
DeepSeek щойно опублікував престижну статтю, щоб підсумувати 2025 рік
"mHC: Гіперзв'язки, обмежені колекторами"
Гіперз'єднання перетворюють єдину залишкову «шосе» в трансформаторах на n паралельних смуг, і кожен шар вчиться тасувати та ділитися сигналом між смугами.
Але якщо кожен шар може довільно підсилювати або зменшувати лінії, результат цих перетасувань по глибині змушує сигнали/градієнти вибухати або зникати.
Тому вони змушують кожне тасування зберігати масу: подвійно стохастична матриця (невід'ємна, кожен рядок/стовпець дорівнює 1). Кожен шар може лише перерозподіляти сигнал між лініями, а не створювати чи знищувати його, тому глибокий пропускний шлях залишається стабільним, поки функції все ще змішуються!
з n=4 це додає ~6,7% часу тренування, але скорочує фінальну втрату на ~0,02 і зберігає найгірший зворотний приріст ~1,6 (проти ~3000 без обмеження), з стабільними перемогами у еталонних показниках у всіх аспектах

50
RoPE фундаментально недосконалий.
У цій статті показано, що RoPE плутає «що» токена з «де» він знаходиться, тому модель не може надійно розмірковувати про відносні позиції незалежно від ідентичності токена.
Наприклад. ефективне поняття «3 жетони ліворуч» тонко залежить від того, які літери задіяні, тому запитати «яка літера 3 ліворуч від Z у послідовності 'ABSCOPZG'» стає складнішим, ніж слід було б, оскільки сам позиційний лінійка змінюється разом із змістом.
Тому ця стаття пропонує PoPE, який дає моделі фіксовану позиційну лінійку, кодуючи там, де токени незалежно від того, чим вони є, дозволяючи «вмісту» лише контролювати силу матчу, а «позиція» — лише відстань.
PoPE досягає 95% точності, тоді як RoPE застрягає на 11% при завданнях непрямого індексування

49
Найкращі
Рейтинг
Вибране
