🚀 Масштабирование эмбеддингов, а не просто экспертов — представляем новый путь для эффективных LLM. Ключевая находка: в условиях высокой разреженности эмбеддинги N-грамм обеспечивают лучшую границу Парето, чем просто добавление большего количества экспертов MoE. Поэтому мы представляем LongCat-Flash-Lite — первую открытую модель, созданную на основе этого инсайта. ⚙️ 68.5B Всего параметров (37.13B не эмбеддинги) | 2.9B~4.5B Активные 📊 Высокая производительность: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 256K Контекстное окно (на базе YARN) ✨ Оптимизирован для агентного/кодирования, силен в общем рассуждении ⚡ ~700 токенов/с пиковая скорость вывода Результат: достигает конкурентоспособной производительности в своем масштабе при значительно более низкой стоимости и задержке. Hugging Face: Технический отчет: