Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
cercetare @meta @cornell // modele lingvistice, teoria informației, știința IA
Iată câteva versiuni alfa gratuite:
dacă facem RL prea mult timp după preantrenament, cu siguranță vom suprascrie parametrii și vom începe să uităm lucruri
în lucrarea originală instructGPT, cel mai bun model al lor a amestecat RLHF cu gradiente de pre-antrenament pentru a evita exact această problemă de derivă a modelului
Cu toate acestea, nimeni nu mai face asta. sigur, este o instanțiere particulară (amestecarea gradientului) a unei idei mai largi (evitarea uitării), dar pare o linie de gândire mult trecută cu vederea pe măsură ce facem din ce în ce mai mulți pași ai RL
de exemplu, vezi lucrarea recentă ProRL. ei fac peste 1000 de pași de GRPO acum cu o rată de învățare netrivială și fără penalizare pentru abaterea de la modelul original. Circuitele construite în interiorul modelului în timpul pre-antrenamentului încep cu siguranță să se descompună. și dacă nu, o vor face după pași de 10k sau 100k RL
Bănuiesc că această idee va reveni în cele din urmă; Probabil că fac deja asta la marile laboratoare



51,16K
Acest lucru pare foarte important:
este total plauzibil ca un model să poată obține aur IMO fără *niciuna* învățare prin întărire, având în vedere un prompt perfect realizat
pur și simplu nu știm și ne lipsesc instrumentele pentru a căuta eficient prin spațiul prompt. Mă bucur să văd că măcar cineva încearcă

Lakshya A Agrawal29 iul. 2025
Cum se compară optimizarea promptă cu algoritmii RL precum GRPO?
GRPO are nevoie de 1000 de lansări, dar oamenii pot învăța din câteva încercări – reflectând asupra a ceea ce a funcționat și a ceea ce nu.
Faceți cunoștință cu GEPA: un optimizator de prompturi reflectorizante care poate depăși GRPO cu până la 20% cu 35 de ori mai puține lansări! 🧵

38,32K
situație ipotetică -
sunt o companie de inteligență artificială care a redus la zero costul transferului și stocării modelelor. Pot servi fiecărui utilizator propriul model fără cheltuieli generale
Ce fac? direct SFT modele specifice utilizatorului pe datele lor? sau RLHF pe ratingurile de chat? altceva?
16,59K
creierul uman rezervă 40% din procesarea sa exclusiv pentru vedere. LLM-urile moderne au evoluat cumva fără acest lucru în întregime

jack morris29 iul. 2025
foarte surprinzător faptul că cincisprezece ani de cercetare hardcore în domeniul viziunii computerizate nu au contribuit ~ nimic la AGI, cu excepția optimizatorilor mai buni
Încă nu avem modele care devin mai inteligente atunci când le dăm ochi
44,24K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante