🚀 Incontra HySparse: La nostra nuova innovazione nell'efficienza dei LLM a lungo contesto! Siamo entusiasti di presentare HySparse (Hybrid Sparse Attention)—un'architettura di modello ibrida che alterna ogni strato di attenzione completo con più strati di attenzione sparsa, dove gli strati sparsi derivano strategicamente la selezione dei token importanti e le cache KV dallo strato completo precedente! 📖 Link al documento: