Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

🧠 Логіка як інтерфейс для зберігання довгого контексту У нашому попередньому дописі (AMemGym) ми наголосили, наскільки важливою є інтерактивна оцінка. Тепер ми застосовуємо його до найновіших «ідеальних» моделей довгого контексту, таких як GPT-5.2. ▪️ Головне питання: чи вирішили ми довгострокові завдання? ▪️ Відповідь: Не зовсім. Йдеться про компроміс між Reasoning-Compute. Глибоке занурення в механіку пам'яті для рідного довгого контексту 👇 1. Не лише основна модель GPT-5.2 демонструє значне зростання на бенчмарках MRCR. Але коли ми розплутали змінні, ми виявили, що значна частина цього вигодження походить від високих зусиль у мисленнях, а не лише основної моделі. 2. Рівняння пам'яті Новий спосіб перегляду вартості міркувань для відновлення пам'яті: [ Мінімальні зусилля для мислення ∝ 1 / Якість пам'яті ] Reasoning діє як адаптивна пошукова система. Вона оплачує обчислювальні витрати на «переналаштування» інформації, яка зберігалася неефективно. 3. Результати AMemGym Ми протестували деякі флагманські моделі на AMemGym (наш бенчмарк інтерактивної пам'яті ICLR'26), щоб оцінити реалістичну продуктивність на довгостроковій перспективі. 🔹 Мислення — це множник: Високі зусилля з мислення критично важливі для динамічних, високорівневих асоціацій. 🔹 Персоналізація — це складно: навіть флагманські моделі мають труднощі з підтримкою стану користувача на довгих горизонтах. 🔹 Відкриті ваги: GLM-4.7 демонструє сильний потенціал, конкуруючи із закритими моделями. 4. Майбутнє (за межами симуляції): Двосторонні двері x масштабування часу тестування Оптимізація пам'яті в реальному режимі можлива шляхом поєднання «безвтратної» збереженості пам'яті з адаптивними обчисленнями під час тестування. Витрачаючи великі обчислювальні ресурси на перевірку логіки та отримання глибоких даних, моделі/агенти можуть генерувати самоконтрольований зворотний зв'язок для вдосконалення структур пам'яті. Це перетворює дороге міркування сьогодні на ефективні когнітивні скорочення для завтрашнього дня. 📄 Повний аналіз: ...

Найкращі

Рейтинг

Вибране