Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
forskning @meta @cornell // språkmodeller, informationsteori, vetenskapen om AI
Här är lite gratis alfa:
om vi gör RL för länge efter förträningen kommer vi säkert att skriva över parametrar och börja glömma saker
i det ursprungliga instructGPT-dokumentet blandade deras bästa modell RLHF med förträningsgradienter för att undvika just detta problem med modelldrift
Ändå är det ingen som gör det längre. Visst, det är en särskild instansiering (gradientblandning) av en bredare idé (att undvika att glömma) men verkar vara en mycket förbisedd tankegång när vi gör fler och fler steg i RL
se till exempel den senaste ProRL-rapporten. de gör över 1000 steg av GRPO nu med en icke-trivial inlärningshastighet och inget straff för att avvika från den ursprungliga modellen. Kretsarna som byggs in i modellen under förträningen börjar säkert förfalla. och om inte, kommer de att göra det efter 10k eller 100k RL-steg
Jag misstänker att den här idén kommer att komma tillbaka så småningom; De gör förmodligen redan detta på de stora labben



51,14K
Det här verkar verkligen viktigt:
det är helt troligt att en modell kan få IMO-guld utan *någon* förstärkningsinlärning, med tanke på en perfekt utformad prompt
Vi vet helt enkelt inte och saknar verktyg för att effektivt söka igenom prompt space. Kul att se att åtminstone någon försöker

Lakshya A Agrawal29 juli 2025
Hur står sig snabb optimering jämfört med RL-algoritmer som GRPO?
GRPO behöver 1000-tals utrullningar, men människor kan lära sig av några försök – genom att reflektera över vad som fungerade och vad som inte fungerade.
Möt GEPA: en reflekterande promptoptimerare som kan överträffa GRPO med upp till 20 % med 35 gånger färre utrullningar! 🧵

38,3K
Den mänskliga hjärnan reserverar 40 % av sin bearbetning uteslutande för synen. moderna LLM:er utvecklades på något sätt utan detta helt och hållet

jack morris29 juli 2025
mycket förvånande att femton år av hardcore forskning om datorseende bidrog ~ ingenting till AGI förutom bättre optimerare
Vi har fortfarande inte modeller som blir smartare när vi ger dem ögon
44,23K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda