🚀 Faceți cunoștință cu HySparse: Noua noastră descoperire în eficiența LLM-urilor pe termen lung! Suntem încântați să prezentăm HySparse (Hybrid Sparse Attention)—o arhitectură de model hibrid care intercalează fiecare strat complet de atenție cu mai multe straturi rare de atenție, unde straturile rare derivă strategic selecția importantă de tokenuri și cache-uri KV din stratul complet precedent! 📖 Link pentru lucrare: