🚀 Escalar incrustaciones, no solo expertos—introducir un nuevo camino para LLMs eficientes. Hallazgo clave: En escenarios de alta esparsidad, las incrustaciones de N-grams ofrecen una mejor frontera de Pareto que simplemente añadir más expertos en el Ministerio de Ingenio. Por ello, presentamos LongCat-Flash-Lite, el primer modelo de código abierto construido sobre esta información. ⚙️ 68,5 mil millones de parámetros totales (37,13 mil millones de parámetros no incrustados) | 2.9B~4.5B Activo 📊 Alto rendimiento: SWE-Bench 54.4 | τ²-Banco 72.8 | TerminalBench 33.75 📃 Ventana de contexto 256K (alimentada por YARN) ✨ Optimizado para Agente/Codificación, fuerte en razonamiento general ⚡ ~700 tokens/s velocidad máxima de inferencia El resultado: logra un rendimiento competitivo dentro de su escala a un coste y latencia significativamente menores. Cara de abrazo: Informe técnico: