Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah dari tim LongCat ini membahas pertanyaan yang menjadi tidak dapat dihindari dalam penelitian AI modern: mengapa model penalaran yang terlihat brilian pada tolok ukur masih berjuang ketika dijatuhkan ke lingkungan yang nyata dan berantakan?
Penulis memperkenalkan LongCat-Flash-Thinking-2601, model Mixture-of-Experts 560B parameter yang dirancang tidak hanya untuk berpikir, tetapi juga untuk bertindak. Klaim utamanya adalah bahwa penalaran agen tidak muncul dari rantai pemikiran yang lebih baik saja. Itu muncul dari interaksi berkelanjutan dengan lingkungan, alat, kebisingan, dan kegagalan.
Langkah teknisnya halus tetapi penting. Alih-alih memperlakukan penalaran sebagai masalah teks statis, makalah membingkainya sebagai proses loop tertutup: amati rencana → → bertindak → menerima umpan balik → merevisi.
Pergeseran itu memaksa perubahan di mana-mana: konstruksi data, algoritme pelatihan, infrastruktur, dan bahkan perilaku waktu inferensi.
Kontribusi utama adalah penskalaan lingkungan. Alih-alih mengandalkan beberapa tolok ukur agen buatan tangan, penulis membangun alur otomatis yang menghasilkan lebih dari 10.000 lingkungan yang dapat dieksekusi di 20+ domain. Setiap lingkungan didasarkan pada dependensi alat nyata, database terverifikasi, dan beberapa jalur solusi yang valid. Kesulitan berskala secara struktural, bukan heuristik.
Pelatihan di lingkungan ini biasanya akan runtuh di bawah kebisingan. Jadi makalah ini secara eksplisit memodelkan ketidaksempurnaan dunia nyata: instruksi ambigu, kegagalan alat, output parsial.
Kebisingan tidak diperlakukan sebagai kasus tepi. Itu dimasukkan ke dalam kurikulum, semakin meningkat dalam kompleksitas sehingga ketahanan dipelajari, bukan ditambal nanti.
Selain itu, mereka memperluas pembelajaran penguatan asinkron (DORA) untuk menangani interaksi berekor panjang dan multi-putaran dalam skala besar, menjaga pelatihan tetap stabil bahkan dengan puluhan ribu lingkungan bersamaan.
Pada waktu inferensi, model memperkenalkan Mode Berpikir Berat. Alih-alih satu rantai pemikiran yang panjang, ia menjalankan jalur penalaran paralel, kemudian menggabungkannya melalui tahap reflektif sekunder. Ini menskalakan kedalaman dan lebar penalaran, dan secara konsisten mengalahkan konsistensi diri pada tugas-tugas yang kompleks.
Hasilnya mengejutkan. LongCat-Flash-Thinking-2601 menetapkan kinerja canggih di antara model sumber terbuka pada tolok ukur agen seperti BrowseComp, τ²-Bench, dan VitaBench, sambil tetap kompetitif dengan model tertutup pada matematika, pengkodean, dan pencarian.
Lebih penting lagi, kinerja menurun jauh lebih sedikit dalam kondisi bising.
Implikasi yang lebih luas tidak nyaman tetapi jelas: kualitas penalaran bukan lagi hambatan. Generalisasi adalah. Dan generalisasi berasal dari lingkungan, bukan perintah.
Makalah ini berpendapat bahwa jika kita menginginkan agen yang bekerja di luar demo, kita harus berhenti melatih mereka di dunia imajiner yang bersih. Kecerdasan sejati ditempa di mana hal-hal rusak.
Makalah: Laporan Teknis LongCat-Flash-Thinking-2601

Teratas
Peringkat
Favorit
