🚀 Skalierung von Embeddings, nicht nur von Experten – wir stellen einen neuen Weg für effiziente LLMs vor. Wichtiges Ergebnis: In Szenarien mit hoher Sparsamkeit liefern N-Gramm-Embeddings eine bessere Pareto-Front als nur das Hinzufügen weiterer MoE-Experten. Daher stellen wir LongCat-Flash-Lite vor – das erste Open-Source-Modell, das auf dieser Erkenntnis basiert. ⚙️ 68,5B Gesamtparameter (37,13B nicht-Embedding) | 2,9B~4,5B aktiv 📊 Hohe Leistung: SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75 📃 256K Kontextfenster (YARN-unterstützt) ✨ Optimiert für Agentic/Coding, stark im allgemeinen Denken ⚡ ~700 Tokens/s Spitzeninferenzgeschwindigkeit Das Ergebnis: Erreicht wettbewerbsfähige Leistung innerhalb seines Maßstabs zu deutlich niedrigeren Kosten und Latenz. Hugging Face: Technischer Bericht: