Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Не думаю, що люди усвідомлювали, наскільки шаленими є результати цієї нової статті TTT + RL від Stanford/Nvidia.
Навчання моделі з відкритим кодом, вони
- переміг Deepmind AlphaEvolve, відкрив нову верхню межу для задачі мінімального перекриття Ердоса
- Розроблено нові ядра GPU A100 у 2 рази швидше за найкраще ядро людини
- Перевершив найкращу спробу кодування ШІ та людську роботу на AtCoder
Ідея тренування під час тесту полягає в тому, щоб навчати модель *поки* вона ітеративно намагається розв'язати завдання. Поєднання цього з RL, як це зроблено в цій статті, відкриває шлюзи для безперервного навчання
Автори: @mertyuksekgonul @LeoXinhaoLee @JedMcCaleb @xiaolonw @jankautz @YejinChoinka @james_y_zou @guestrin @sun_yu_

Найкращі
Рейтинг
Вибране
