Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
onderzoek @meta @cornell // taalmodellen, informatietheorie, wetenschap van AI
hier is wat gratis alpha:
als we RL te lang doen na de pretraining, zullen we zeker parameters overschrijven en dingen beginnen te vergeten
in het originele instructGPT-paper mengde hun beste model RLHF met pretraining-gradiënten om precies dit modelafdriftprobleem te vermijden
toch doet niemand dit meer. zeker, het is een specifieke instantiatie (gradiëntmixing) van een breder idee (vergeten vermijden), maar het lijkt een sterk over het hoofd geziene denkrichting te zijn terwijl we steeds meer stappen van RL doen
bijvoorbeeld zie het recente ProRL-paper. ze doen nu meer dan 1000 stappen van GRPO met een niet-triviale leersnelheid en geen straf voor het afwijken van het originele model. de circuits die binnen het model tijdens de pretraining zijn opgebouwd, beginnen zeker te vervagen. en als dat niet zo is, zullen ze dat doen na 10k of 100k RL-stappen
ik vermoed dat dit idee uiteindelijk weer zal terugkomen; ze doen dit waarschijnlijk al in de grote laboratoria



51,14K
dit lijkt echt belangrijk:
het is volkomen plausibel dat een model IMO goud kan krijgen zonder *enige* reinforcement learning, gegeven een perfect geformuleerde prompt
we weten het gewoon niet, en we missen de tools om efficiënt door de promptruimte te zoeken. blij te zien dat in ieder geval iemand het probeert

Lakshya A Agrawal29 jul 2025
Hoe verhoudt promptoptimalisatie zich tot RL-algoritmes zoals GRPO?
GRPO heeft duizenden rollouts nodig, maar mensen kunnen leren van een paar pogingen—door na te denken over wat werkte en wat niet.
Maak kennis met GEPA: een reflectieve promptoptimizer die GRPO tot 20% kan overtreffen met 35x minder rollouts!🧵

36,21K
hypothetische situatie -
ik ben een AI-bedrijf dat de kosten voor het overdragen en opslaan van modellen tot nul heeft verlaagd. Ik kan elke gebruiker hun eigen model aanbieden zonder overhead.
wat moet ik doen? Direct SFT gebruikersspecifieke modellen op hun gegevens? Of RLHF op de chatbeoordelingen? Iets anders?
16,57K
de menselijke hersenen reserveert 40% van zijn verwerking exclusief voor visie. moderne LLM's zijn op de een of andere manier zonder dit geëvolueerd.

jack morris29 jul 2025
het is zeer verrassend dat vijftien jaar van intensief onderzoek naar computer vision ~niets heeft bijgedragen aan AGI, behalve betere optimalisatoren.
we hebben nog steeds geen modellen die slimmer worden als we ze ogen geven.
44,22K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste