🚀 Škálování embeddingů, nejen expertů – zavádění nové cesty pro efektivní LLM. Klíčový závěr: V scénářích s vysokou řídkostí poskytují N-gramové embeddingy lepší Pareto hranici než jen přidání dalších expertů MoE. Proto představujeme LongCat-Flash-Lite – první opensource model postavený na tomto poznatku. ⚙️ 68,5B Celkem parametrů (37,13B bez vložení) | 2.9B~4.5B Active 📊 Vysoký výkon: SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75 📃 256K kontextové okno (poháněné YARN) ✨ Optimalizováno pro agentickou/programování, silné v obecném uvažování ⚡ ~700 tokenů/s maximální rychlost inference Výsledek: Dosahuje konkurenceschopného výkonu ve svém měřítku za výrazně nižší náklady a latenci. Objímající obličej: Technická zpráva: