Вау! DeepSeekMath-V2 Знову архітектура генератора-верифікатора! ... У напрямку самоперевіреного математичного мислення ми досліджуємо, як навчити точний і достовірний перевірювач на основі LLM для доведення теорем. Потім ми навчаємо генератор доказів, використовуючи верифікатор як модель винагороди, і стимулюємо генератор виявляти та вирішувати якомога більше проблем у власних доказах перед їх завершенням. Щоб зберегти розрив між генерацією та верифікацією, коли генератор стає сильнішим, ми пропонуємо масштабувати обчислення верифікації для автоматичного маркування нових важкоперевіряних доказів, створюючи навчальні дані для подальшого покращення верифікатора. Наша результативна модель, DeepSeekMath-V2, демонструє сильні можливості доведення теорем, досягнувши золотих балів на IMO 2025 та CMO 2024, а також майже ідеальні 118/120 на Putnam 2024 з масштабованими обчисленнями за час тестування. Хоча ще багато роботи, ці результати свідчать, що самоперевірене математичне мислення є реальним напрямком досліджень, який може допомогти розробити більш потужні математичні системи ШІ.