🚀 Lernen Sie HySparse kennen: Unser neuer Durchbruch in der Effizienz von LLM mit langem Kontext! Wir freuen uns, HySparse (Hybrid Sparse Attention) vorzustellen – eine hybride Modellarchitektur, die jede vollständige Aufmerksamkeits-Schicht mit mehreren spärlichen Aufmerksamkeits-Schichten kombiniert, wobei die spärlichen Schichten strategisch wichtige Token-Auswahlen und KV-Caches aus der vorhergehenden vollständigen Schicht ableiten! 📖 Papierlink: