🚀 Escalar embeddings, não apenas especialistas — introduzindo um novo caminho para LLMs eficientes. Achado chave: Em cenários de alta esparsidade, os embeddings N-gram produzem uma fronteira de Pareto melhor do que apenas adicionar mais especialistas do MoE. Por isso, apresentamos o LongCat-Flash-Lite — o primeiro modelo opensource construído sobre esse insight. ⚙️ 68,5B Total de Params(37,13B não incorporados) | 2.9B~4.5B Ativo 📊 Alto Desempenho: SWE-Bench 54.4 | τ²-Banco 72.8 | TerminalBench 33.75 📃 Janela de Contexto 256K (alimentada por YARN) ✨ Otimizado para Agente/Programação, forte em raciocínio geral ⚡ ~700 tokens/s velocidade máxima de inferência O resultado: alcança desempenho competitivo dentro de sua escala com custo e latência significativamente menores. Rosto de abraço: Relatório Técnico: