Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Топ-26 основних робіт (+5 бонусних ресурсів)
для майстерингу LLM та трансформерів
Цей список об'єднує фундаменти трансформерів
з логікою, MoE та агентським зсувом
Рекомендований порядок читання
1. Увага — це все, що вам потрібно (Vaswani та ін., 2017)
> Оригінальний папір Transformer. Охоплює самоувагу,
> багатоголовкову увагу та структуру енкодер-декодера
> (хоча більшість сучасних LLM працюють лише з декодерами.)
2. Ілюстрований трансформер (Jay Alammar, 2018)
> Чудовий інструмент для розуміння інтуїції
> увагу та тензорний потік перед тим, як перейти до реалізації
3. БЕРТ: Попереднє навчання глибоким двонаправленим трансформаторам (Devlin et al., 2018)
> Основи енкодера, масковане мовне моделювання,
> та навчання представленням, які й досі формують сучасну архітектуру
4. Мовні моделі — це навчатися з мінімальними ударами (GPT-3) (Brown et al., 2020)
> Встановлене навчання в контексті як реальне
> здібності та змінив спосіб розуміння підказки
5. Закони масштабування для нейронних мовних моделей (Kaplan et al., 2020)
> Перший чистий фреймворк для емпіричного масштабування параметрів, даних і обчислювань
> Читав разом із Шиншилою, щоб зрозуміти, чому більшість моделей були недостатньо навчені
6. Тренування великих мовних моделей, оптимальних для обчислень (Chinchilla) (Hoffmann et al., 2022)
> Довів, що кількість жетонів має більше значення, ніж...
Найкращі
Рейтинг
Вибране
