Топ-26 основных статей (+5 бонусных ресурсов) для освоения LLM и Трансформеров Этот список соединяет основы Трансформеров с рассуждениями, MoE и агентским сдвигом Рекомендуемый порядок чтения 1. Внимание — это всё, что вам нужно (Vaswani et al., 2017) > Оригинальная статья о Трансформере. Охватывает самовнимание, > многоголовое внимание и структуру кодировщика-декодера > (хотя большинство современных LLM являются только декодерами.) 2. Иллюстрированный Трансформер (Jay Alammar, 2018) > Отличный способ понять > внимание и тензорные потоки перед погружением в реализации 3. BERT: Предобучение глубоких двунаправленных Трансформеров (Devlin et al., 2018) > Основы на стороне кодировщика, маскированное языковое моделирование, > и обучение представлениям, которые до сих пор формируют современные архитектуры 4. Языковые модели — это обучающиеся с несколькими примерами (GPT-3) (Brown et al., 2020) > Установили обучение в контексте как реальную > способность и изменили понимание подсказок 5. Законы масштабирования для нейронных языковых моделей (Kaplan et al., 2020) > Первая чистая эмпирическая структура масштабирования для параметров, данных и вычислений > Читайте вместе с Chinchilla, чтобы понять, почему большинство моделей были недообучены 6. Обучение вычислительно оптимальных больших языковых моделей (Chinchilla) (Hoffmann et al., 2022) > Показали, что количество токенов важнее...