🚀 Escalando embeddings, no solo expertos—introduciendo un nuevo camino para LLMs eficientes. Hallazgo clave: En escenarios de alta escasez, los embeddings N-gram producen una mejor frontera de Pareto que simplemente añadir más expertos de MoE. Por lo tanto, presentamos LongCat-Flash-Lite—el primer modelo de código abierto construido sobre esta idea. ⚙️ 68.5B Total de Parámetros (37.13B no-embedding) | 2.9B~4.5B Activos 📊 Alto Rendimiento: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 Ventana de Contexto de 256K (potenciado por YARN) ✨ Optimizado para Agente/Codificación, fuerte en razonamiento general ⚡ ~700 tokens/s de velocidad de inferencia máxima El resultado: Logra un rendimiento competitivo dentro de su escala a un costo y latencia significativamente más bajos. Hugging Face: Informe Técnico: