🚀 Масштабування вкладень, а не лише експертів — впровадження нового шляху для ефективних LLM. Ключове висновки: У ситуаціях з високою рідкістю N-грамові вкладення дають кращу межу Парето, ніж просто додавання додаткових експертів з MoE. Тому ми представляємо LongCat-Flash-Lite — першу модель з відкритим кодом, побудовану на цьому розумінні. ⚙️ 68.5B Всього параметрів (37.13B без вбудовування) | 2.9B~4.5B Активна 📊 Висока продуктивність: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 Контекстне вікно 256K (YARN) ✨ Оптимізований для агентного/кодування, сильний у загальному мисленні ⚡ ~700 токенів/с пікової швидкості виведення Результат: Досягає конкурентоспроможних результатів у межах свого масштабу з значно нижчою вартістю та затримкою. Обіймаючи обличчя: Технічний звіт: