Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
исследования @meta @cornell // языковые модели, теория информации, наука об искусственном интеллекте
вот немного бесплатной информации:
если мы будем проводить RL слишком долго после предварительного обучения, мы, безусловно, перезапишем параметры и начнем забывать вещи.
в оригинальной статье instructGPT их лучшая модель смешивала RLHF с градиентами предварительного обучения, чтобы избежать именно этой проблемы дрейфа модели.
тем не менее, никто больше этого не делает. конечно, это одна конкретная реализация (смешивание градиентов) более широкой идеи (избежание забвения), но это кажется сильно упущенной линией мышления, поскольку мы делаем все больше шагов RL.
например, посмотрите на недавнюю статью ProRL. они сейчас делают более 1000 шагов GRPO с нетривиальной скоростью обучения и без штрафа за отклонение от оригинальной модели. цепи, построенные внутри модели во время предварительного обучения, безусловно, начинают разрушаться. и если нет, то они разрушатся после 10k или 100k шагов RL.
я подозреваю, что эта идея в конечном итоге вернется; вероятно, они уже делают это в крупных лабораториях.



51,14K
это кажется действительно важным:
вполне возможно, что модель могла бы получить IMO золото без *какого-либо* обучения с подкреплением, если бы был идеально составленный запрос
мы просто не знаем и не имеем инструментов для эффективного поиска в пространстве запросов. рад видеть, что хотя бы кто-то пытается

Lakshya A Agrawal29 июл. 2025 г.
Как оптимизация подсказок соотносится с алгоритмами RL, такими как GRPO?
GRPO требует тысяч запусков, но люди могут учиться на нескольких попытках — размышляя о том, что сработало, а что нет.
Познакомьтесь с GEPA: рефлексивным оптимизатором подсказок, который может превзойти GRPO на 20% с 35 раз меньшим количеством запусков!🧵

36,21K
гипотетическая ситуация -
я компания ИИ, которая снизила стоимость передачи и хранения моделей до нуля. я могу предоставить каждому пользователю его собственную модель без накладных расходов.
что мне делать? напрямую SFT модели, специфичные для пользователя, на их данных? или RLHF на оценках чата? что-то еще?
16,57K
человеческий мозг резервирует 40% своей обработки исключительно для зрения. современные LLM каким-то образом развились без этого полностью.

jack morris29 июл. 2025 г.
очень удивительно, что пятнадцать лет интенсивных исследований в области компьютерного зрения не привели ни к чему в направлении AGI, кроме улучшения оптимизаторов.
у нас все еще нет моделей, которые становились бы умнее, когда мы даем им глаза.
44,22K
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные