Топ-26 основних робіт (+5 бонусних ресурсів) для майстерингу LLM та трансформерів Цей список об'єднує фундаменти трансформерів з логікою, MoE та агентським зсувом Рекомендований порядок читання 1. Увага — це все, що вам потрібно (Vaswani та ін., 2017) > Оригінальний папір Transformer. Охоплює самоувагу, > багатоголовкову увагу та структуру енкодер-декодера > (хоча більшість сучасних LLM працюють лише з декодерами.) 2. Ілюстрований трансформер (Jay Alammar, 2018) > Чудовий інструмент для розуміння інтуїції > увагу та тензорний потік перед тим, як перейти до реалізації 3. БЕРТ: Попереднє навчання глибоким двонаправленим трансформаторам (Devlin et al., 2018) > Основи енкодера, масковане мовне моделювання, > та навчання представленням, які й досі формують сучасну архітектуру 4. Мовні моделі — це навчатися з мінімальними ударами (GPT-3) (Brown et al., 2020) > Встановлене навчання в контексті як реальне > здібності та змінив спосіб розуміння підказки 5. Закони масштабування для нейронних мовних моделей (Kaplan et al., 2020) > Перший чистий фреймворк для емпіричного масштабування параметрів, даних і обчислювань > Читав разом із Шиншилою, щоб зрозуміти, чому більшість моделей були недостатньо навчені 6. Тренування великих мовних моделей, оптимальних для обчислень (Chinchilla) (Hoffmann et al., 2022) > Довів, що кількість жетонів має більше значення, ніж...