Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я застосував подібний підхід генератора-верифікатора для використання моделей у дослідженнях теоретичної фізики.
Людські експерти на передовій науки можуть покращити моделі Верифікатора настільки, що автономна робота є надзвичайно сильною навіть у реальних дослідницьких задачах (не просто на штучних математичних конкурсах = добре поставлених задачах, які люди можуть розв'язати за обмежений час).
DeepSeekMathV2
Синергія між генератором і верифікатором
Генератор доказів і верифікатор утворюють самовдосконалюваний зворотний зв'язок. Оскільки генератор створює дедалі складніші докази, вони кидають виклик перевірювачу, виявляючи слабкі місця, які стають новими навчальними даними. Спочатку людські експерти керували повторним навчанням верифікатора, переглядаючи його позначені проблеми — процес, який став ефективним завдяки генерації кількох спроб перевірки на кожне доказування. Ця «мета-верифікація» (перевірка результатів верифікатора, а не доказів безпосередньо) виявилася легшою для людей і більш засвоєною для LLM.
Масштабуючи кількість аналізів і навчання верифікаторів на цих анотаціях із допомогою ШІ, верифікатор досяг рівня надійності, коли людське втручання у фінальних запусках більше не було потрібне — що закрило коло між автоматизованим генеруванням доказів і перевіркою.

28 лист. 2025 р.
Вау! DeepSeekMath-V2
Знову архітектура генератора-верифікатора!
... У напрямку самоперевіреного математичного мислення ми досліджуємо, як навчити точний і достовірний перевірювач на основі LLM для доведення теорем. Потім ми навчаємо генератор доказів, використовуючи верифікатор як модель винагороди, і стимулюємо генератор виявляти та вирішувати якомога більше проблем у власних доказах перед їх завершенням. Щоб зберегти розрив між генерацією та верифікацією, коли генератор стає сильнішим, ми пропонуємо масштабувати обчислення верифікації для автоматичного маркування нових важкоперевіряних доказів, створюючи навчальні дані для подальшого покращення верифікатора. Наша результативна модель, DeepSeekMath-V2, демонструє сильні можливості доведення теорем, досягнувши золотих балів на IMO 2025 та CMO 2024, а також майже ідеальні 118/120 на Putnam 2024 з масштабованими обчисленнями за час тестування. Хоча ще багато роботи, ці результати свідчать, що самоперевірене математичне мислення є реальним напрямком досліджень, який може допомогти розробити більш потужні математичні системи ШІ.

Це описує перехід від базового конвеєра Генератор-Верифікатор із використанням готових моделей до такого, в якому сам Верифікатор був удосконалений за допомогою даних з навчання експертів, що використовуються в метаверифікації.

5,25K
Найкращі
Рейтинг
Вибране
