🚀 Découvrez HySparse : notre nouvelle avancée en matière d'efficacité des LLM à long contexte ! Nous sommes ravis de partager HySparse (Hybrid Sparse Attention) — une architecture de modèle hybride qui entrelace chaque couche d'attention complète avec plusieurs couches d'attention sparse, où les couches sparse dérivent stratégiquement la sélection des tokens importants et les caches KV de la couche complète précédente! 📖 Lien vers le document :