🚀 HySparseをご紹介します:長期コンテキストのLLM効率における新たな突破口です! HySparse(Hybrid Sparse Attention)をご紹介できることを嬉しく思います。これは、各フルアテンションレイヤーと複数のスパースアテンションレイヤーを交互に配置し、スパースレイヤーが前のフルレイヤーから戦略的に重要なトークン選択やKVキャッシュを導き出すハイブリッドモデルアーキテクチャです! 📖 論文リンク: