🚀 Scalare le embedding, non solo esperti—introducendo un nuovo percorso per LLM efficienti. Risultato chiave: In scenari ad alta scarsità, le embedding N-gram offrono una migliore frontiera di Pareto rispetto all'aggiunta di più esperti MoE. Pertanto, introduciamo LongCat-Flash-Lite—il primo modello open source costruito su questa intuizione. ⚙️ 68.5B Parametri Totali (37.13B non-embedding) | 2.9B~4.5B Attivi 📊 Alte Prestazioni: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 Finestra di Contesto 256K (alimentata da YARN) ✨ Ottimizzato per Agentic/Coding, forte nel ragionamento generale ⚡ ~700 token/s velocità di inferenza di picco Il risultato: Raggiunge prestazioni competitive all'interno della sua scala a un costo e una latenza significativamente inferiori. Hugging Face: Rapporto Tecnico: