トップ26の必読論文(+5のボーナスリソース) LLMおよびトランスフォーマーのマスタリング用 このリストはトランスフォーマーの基礎を橋渡しします 推論、MoE、エージェントシフトを含みます おすすめ読書順 1. 注意こそがすべて(Vaswani et al., 2017) > オリジナルのトランスフォーマー論文。自己注意をカバーしています。 > マルチヘッドアテンションとエンコーダ-デコーダ構造 >(ほとんどの現代のLLMはデコーダのみですが) 2. イラストレイテッド・トランスフォーマー(ジェイ・アラマー、2018年) > 理解のための素晴らしい直感構築ツール 実装に入る前に注意とテンソルフローを> 3. BERT:深層双方向トランスフォーマーの事前学習(Devlinら、2018年) > エンコーダ側の基礎、マスクされた言語モデリング、 現代の建築を形作る>と表現学習 4. 言語モデルはフーショット学習者(GPT-3)(Brownら、2020年) > 実在の文脈内学習の確立 >能力とプロンプトの理解方法が変わりました 5. ニューラル言語モデルのスケーリング法則(Kaplanら、2020年) > パラメータ、データ、計算のための最初のクリーンな経験的スケーリングフレームワーク > 『チンチラ』と一緒に読んで、なぜほとんどのモデルが訓練不足だったのかを理解しました 6. 計算最適大規模言語モデル(チンチラ)の訓練(Hoffmannら、2022年) > トークン数がそれ以上の重要性であることを示しました...