🚀 Skalowanie osadzeń, a nie tylko ekspertów—wprowadzamy nową ścieżkę dla efektywnych LLM-ów. Kluczowe odkrycie: W scenariuszach o wysokiej rzadkości, osadzenia N-gram dają lepszą granicę Pareto niż po prostu dodawanie większej liczby ekspertów MoE. Dlatego wprowadzamy LongCat-Flash-Lite—pierwszy model open source zbudowany na tym wniosku. ⚙️ 68,5B całkowitych parametrów (37,13B bez osadzeń) | 2,9B~4,5B aktywnych 📊 Wysoka wydajność: SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75 📃 256K okno kontekstowe (zasilane YARN) ✨ Optymalizowany do Agentic/Coding, silny w ogólnym rozumowaniu ⚡ ~700 tokenów/s szczytowa prędkość wnioskowania Rezultat: Osiąga konkurencyjną wydajność w swoim zakresie przy znacznie niższych kosztach i opóźnieniach. Hugging Face: Raport techniczny: