🚀 Upotusten skaalautuminen, ei pelkästään asiantuntijat – tuodaan uusi polku tehokkaisiin LLM-malleihin. Keskeiset havainnot: Korkean harvoisuuden skenaarioissa N-grammin upotukset tarjoavat paremman Pareto-rajapinnan kuin pelkkien MoE-asiantuntijoiden lisääminen. Siksi esittelemme LongCat-Flash-Lite – ensimmäisen avoimen lähdekoodin mallin, joka perustuu tähän oivallukseen. ⚙️ 68,5B kokonaisparametrit (37,13B ei-upotettu) | 2.9B~4.5B Aktiivinen 📊 Korkea suorituskyky: SWE-Bench 54.4 | τ²-penkki 72,8 | TerminalBench 33.75 📃 256K kontekstiikkuna (YARN-voimalla) ✨ Optimoitu agenttiin/koodaukseen, vahva yleisessä päättelyssä ⚡ ~700 tokenia/s huippupäättelynopeus Tuloksena: Saavuttaa kilpailukykyisen suorituskyvyn omalla mittakaavallaan huomattavasti alhaisemmalla kustannuksella ja viiveellä. Halauskasvot: Tekninen raportti: