Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми випадково створили самовдосконалювані системи ШІ. Ця стаття з Оксфордського університету це доводить.
Більшість людей припускають, що покращення моделей походять із більших архітектур або ретельно спроектованих конвеєрів навчання за допомогою підкріплення.
Ця робота демонструє щось більш тонке і тривожне.
Якщо ви розгортаєте модель, дозволяєте користувачам взаємодіяти з нею, фільтруєте збої, і налаштовуєте лише успішні трасування, модель починає самостійно покращувати свої планувальні можливості.
Жодних явних винагород, ручної програми і зовнішнього планувальника.
Просто ітерація.
Автори називають це ітеративним розгортанням і тестують його в контрольованих планувальних середовищах, таких як Blocksworld, Rovers і Sokoban.
Система проста:
1. Впровадити LLM для планування завдань
2. Залишайте лише ті плани, які дійсно працюють
3. Тонко налаштуйте наступну версію на ці дійсні сліди
Повторюю
Після всього п'яти поколінь ефективність планування більш ніж подвоїлася у всіх сферах. В деяких випадках він покращується в 4–5 разів. Ще цікавіше, що пізніші покоління виявляють набагато довші плани, ніж базова модель, що демонструє реальне узагальнення поза дистрибуціями, а не лише хитрощі форматування чи відповідність термінам.
Ось ключове усвідомлення.
У статті доводиться, що цей процес математично еквівалентний навчанню з підкріпленням із бінарним сигналом винагороди.
Але функція винагороди ніколи не записується.
...

Найкращі
Рейтинг
Вибране
