Усі тут пропускають справжню історію. Це не «техніка підказки». Стаття називається «Рекурсивні мовні моделі», а не «Рекурсивна метакогніція». І автори — це не випадкові дослідники, які намагаються набрати кількість цитувань. Омар Хаттаб створив DSPy, який має 31 000+ зірок на GitHub і змінив спосіб створення складних AI-систем. Тім Краска був піонером у створенні структур індексу вивчення разом із Джеффом Діном у Google і керує лабораторією систем даних і штучного інтелекту MIT. Алекс Чжан — аспірант, який працює на перетині обох напрямків. Сама стаття розглядає конкретну проблему: LLM деградують у довгому контексті. Графік показує, як продуктивність GPT-5 падає у міру масштабування довжини входу з 2^14 до 2^21 токенів, тоді як RLM зберігають стабільну продуктивність. Вони обробляють вхідні дані у 100 разів поза контекстними вікнами. Ключовий висновок із власного Твітера Хаттаба: «Більшість людей неправильно розуміють, що RLM — це про те, що LLM звертаються до себе. Глибше розуміння — це LLM, які взаємодіють зі своїми власними підказками як об'єктами.» Це розширює всю дослідницьку арку Хаттаба. DSPy перетворив підказки на програмні модулі. ColBERT зробив вилучення розумнішим. RLM перетворюють сам контекст на щось, що модель може обробляти, наприклад, дані в пам'яті. Prime Intellect, одна з провідних децентралізованих лабораторій ШІ, вже розвиває цю ідею. Вони написали, що RLM дозволять їм «навчати моделі керувати власним контекстом від початку до кінця через навчання підкріпленням» для агентів, які працюють тижнями або місяцями. Справжня торгівля? Це вирішує обмеження, з яким стикається кожна лабораторія ШІ: контекстні вікна — це жорстка стеля. Розширення їх через архітектуру та навчання дороге. RLM пропонують підхід з часом висновку, який працює з існуючими моделями. Але слідкуйте за нюансом: для цього потрібні моделі, які можуть надійно писати та виконувати код. Бенчмарки використовують GPT-5 у Python REPL. Моделі з слабшою генерацією коду матимуть труднощі з чистою реалізацією рекурсивної декомпозиції. Техніка масштабується залежно від можливостей коду, а не лише здатності міркування.