DApp Store | Pusat Web3 untuk Event & Game

Topik trending

🧠 Penalaran sebagai Antarmuka untuk Penyimpanan Konteks Panjang Dalam posting terakhir kami (AMemGym), kami menekankan bagaimana evaluasi interaktif itu penting. Sekarang, kami menerapkannya ke model konteks panjang "sempurna" terbaru seperti GPT-5.2. ▪️ Pertanyaan besar: Sudahkah kita memecahkan tugas-tugas cakrawala panjang? ▪️ Jawabannya: Tidak persis. Ini tentang trade-off Reasoning-Compute. Menyelam lebih dalam ke dalam mekanisme memori untuk konteks 👇 panjang asli 1. Bukan Hanya Model Tulang Punggung GPT-5.2 menunjukkan keuntungan besar pada tolok ukur MRCR. Tetapi ketika kami menguraikan variabel, kami menemukan sebagian besar keuntungan itu berasal dari upaya penalaran yang tinggi, bukan hanya model tulang punggung. 2. Persamaan Memori Cara baru untuk melihat biaya penalaran untuk pengambilan memori: [ Upaya penalaran minimal ∝ 1 / Kualitas memori ] Penalaran bertindak sebagai mesin pencari adaptif. Ini membayar biaya komputasi untuk "mengikat ulang" informasi yang tidak disimpan secara efisien. 3. Hasil AMemGym Kami menguji beberapa model unggulan di AMemGym (tolok ukur memori interaktif ICLR'26 kami) untuk mengevaluasi kinerja jangka panjang yang realistis. 🔹 Penalaran adalah Pengganda: Upaya penalaran yang tinggi sangat penting untuk asosiasi tingkat tinggi yang dinamis. 🔹 Personalisasi itu Sulit: Bahkan model unggulan berjuang untuk mempertahankan status pengguna dalam jangka panjang. 🔹 Bobot Terbuka: GLM-4.7 menunjukkan potensi yang kuat, menyaingi model tertutup. 4. Masa Depan (Melampaui Simulasi): Pintu Dua Arah x Penskalaan Waktu Uji Mengoptimalkan memori di alam liar dimungkinkan dengan menggabungkan persistensi memori "non-lossy" dengan komputasi waktu pengujian adaptif. Dengan menghabiskan komputasi tinggi untuk memverifikasi logika dan mengambil data mendalam, model/agen dapat menghasilkan umpan balik yang diawasi sendiri untuk menyempurnakan struktur memori. Ini mengubah penalaran mahal hari ini menjadi pintasan kognitif yang efisien untuk masa depan. 📄 Analisis Lengkap: ...

Teratas

Peringkat

Favorit