Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Топ-26 основных статей (+5 бонусных ресурсов)
для освоения LLM и Трансформеров
Этот список соединяет основы Трансформеров
с рассуждениями, MoE и агентским сдвигом
Рекомендуемый порядок чтения
1. Внимание — это всё, что вам нужно (Vaswani et al., 2017)
> Оригинальная статья о Трансформере. Охватывает самовнимание,
> многоголовое внимание и структуру кодировщика-декодера
> (хотя большинство современных LLM являются только декодерами.)
2. Иллюстрированный Трансформер (Jay Alammar, 2018)
> Отличный способ понять
> внимание и тензорные потоки перед погружением в реализации
3. BERT: Предобучение глубоких двунаправленных Трансформеров (Devlin et al., 2018)
> Основы на стороне кодировщика, маскированное языковое моделирование,
> и обучение представлениям, которые до сих пор формируют современные архитектуры
4. Языковые модели — это обучающиеся с несколькими примерами (GPT-3) (Brown et al., 2020)
> Установили обучение в контексте как реальную
> способность и изменили понимание подсказок
5. Законы масштабирования для нейронных языковых моделей (Kaplan et al., 2020)
> Первая чистая эмпирическая структура масштабирования для параметров, данных и вычислений
> Читайте вместе с Chinchilla, чтобы понять, почему большинство моделей были недообучены
6. Обучение вычислительно оптимальных больших языковых моделей (Chinchilla) (Hoffmann et al., 2022)
> Показали, что количество токенов важнее...
Топ
Рейтинг
Избранное
