Существует, возможно, ~20-25 важных статей. Реализуйте их, и вы охватите ~90% альфа, стоящего за современными LLM. Все остальное — это гарнир. Хотите этот список? Не ищите больше... Топ-26 основных статей (+5 бонусных ресурсов) для освоения LLM и Трансформеров Этот список соединяет основы Трансформеров с рассуждениями, MoE и агентским сдвигом Рекомендуемый порядок чтения 1. Внимание — это всё, что вам нужно (Vaswani et al., 2017) > Оригинальная статья о Трансформере. Охватывает самовнимание, > многоголовое внимание и структуру кодировщика-декодера > (хотя большинство современных LLM являются только декодерами.) 2. Иллюстрированный Трансформер (Jay Alammar, 2018) > Отличный способ понять > внимание и поток тензоров перед погружением в реализации 3. BERT: Предобучение глубоких двунаправленных Трансформеров (Devlin et al., 2018) > Основы на стороне кодировщика, маскированное языковое моделирование, > и обучение представлениям, которые до сих пор формируют современные архитектуры 4. Языковые модели — это обучающиеся с несколькими примерами (GPT-3) (Brown et al., 2020) > Установили обучение в контексте как реальную...