🚀 Sadece uzmanlar değil, gömülerin ölçeklendirilmesi—verimli LLM'ler için yeni bir yol sunuyor. Ana Bulgu: Yüksek seyreklik senaryolarında, N-gram gömmeleri, sadece daha fazla MoE uzmanı eklemekten daha iyi bir Pareto sınırı sağlar. Bu nedenle, bu içgörü üzerine inşa edilen ilk açık kaynak modeli olan LongCat-Flash-Lite'ı tanıtıyoruz. ⚙️ 68.5B Toplam Param(37.13B gömülü olmayan) | 2.9B~4.5B Aktif 📊 Yüksek Performans: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 256K Bağlam Penceresi (YARN güçlü) ✨ Ajanik/Kodlama için optimize edilmiş, genel akıl yürütme açısından güçlü ⚡ ~700 token/s zirve çıkarım hızı Sonuç: Kendi ölçeği içinde rekabetçi performans ve maliyet açısından önemli ölçüde daha düşük bir maliyet ve gecikmeyle elde eder. Sarılma Yüz: Teknik Rapor: