🚀 Laporan Teknis LongCat-Flash-Thinking-2601 – Sekarang Dirilis Sepenuhnya! Wawasan utama: 🌍 RL agen skala besar (14 halaman penyelaman mendalam!) 🔹 Penskalaan lingkungan: Tampilan mendetail pada alur otomatis kami yang membangun 10.000+ lingkungan yang dapat dieksekusi dan dapat diverifikasi di 20+ domain. 🔹 Infrastruktur RL: Kerangka kerja DORA yang ditingkatkan yang mendukung pelatihan asinkron dengan 32.000+ lingkungan bersamaan, mengatasi masalah stabilitas dalam tugas ekor panjang dan sangat heterogen. 🛡️ Kekokohan di alam liar 🔹 Injeksi kebisingan: Tidak ada lagi agen "rumah kaca". Kami secara sistematis menganalisis kebisingan dunia nyata (kebisingan pengguna/alat) dan menyuntikkannya langsung ke loop pelatihan. 🔹 Kurikulum RL: Strategi berbasis kurikulum yang secara bertahap memperkuat model terhadap lingkungan yang berantakan dan tidak sempurna. 🧠 Kerangka kerja Berpikir Berat 🔹 Penalaran paralel: Memperluas keluasan dengan menghasilkan beberapa lintasan penalaran independen. 🔹 Ringkasan berulang: Memperluas kedalaman dengan menggunakan model ringkasan untuk merefleksikan dan mensintesis lintasan paralel sebelum membuat keputusan akhir. 🔹 Memori konteks: Modul memori yang dibuat khusus untuk menjaga penalaran tetap koheren di cakrawala yang panjang. ⚡ Perhatian Zigzag 🔹 Desain Konektivitas Zigzag yang menggabungkan MLA + SSA untuk mengurangi komputasi sekaligus mempertahankan aliran informasi global. 🔹 Peralihan pelatihan menengah ke varian jarang menghasilkan percepatan 1,5× dan mendukung konteks token 1M —meletakkan dasar untuk terobosan masa depan dalam penalaran agen konteks panjang. 🔹 Jelajahi: 📊 Mencapai SOTA di antara model sumber terbuka di seluruh tolok ukur agen utama: pencarian, penggunaan alat, penalaran matematis, dan pengkodean. Jika Anda menginginkan detail lebih lanjut, jangan ragu untuk memeriksa laporan teknis lengkapnya. • Kertas: • Situs web: • GitHub: • Wajah Memeluk: