Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
ricerca @meta @cornell // modelli linguistici, teoria dell'informazione, scienza dell'IA
ecco un po' di alpha gratuito:
se facciamo RL per troppo tempo dopo il pretraining, sicuramente sovrascriveremo i parametri e inizieremo a dimenticare cose
nel documento originale di instructGPT, il loro miglior modello mescolava RLHF con i gradienti di pretraining per evitare esattamente questo problema di deriva del modello
eppure nessuno lo sta facendo più. certo, è una particolare istanza (mescolanza di gradienti) di un'idea più ampia (evitare di dimenticare), ma sembra essere una linea di pensiero grandemente trascurata mentre facciamo sempre più passi di RL
per esempio, vedi il recente documento ProRL. ora stanno facendo oltre 1000 passi di GRPO con un tasso di apprendimento non banale e senza penalità per deviare dal modello originale. i circuiti costruiti all'interno del modello durante il pretraining stanno sicuramente iniziando a decadere. e se non lo fanno, lo faranno dopo 10k o 100k passi di RL
sospetto che questa idea tornerà alla ribalta; probabilmente lo stanno già facendo nei grandi laboratori



51,14K
questo sembra davvero importante:
è del tutto plausibile che un modello possa ottenere IMO gold senza *alcun* apprendimento per rinforzo, dato un prompt perfettamente elaborato
non lo sappiamo, e ci mancano gli strumenti per cercare in modo efficiente nello spazio dei prompt. sono contento di vedere che almeno qualcuno ci sta provando

Lakshya A Agrawal29 lug 2025
Come si confronta l'ottimizzazione dei prompt con gli algoritmi RL come GRPO?
GRPO ha bisogno di migliaia di rollout, ma gli esseri umani possono imparare da pochi tentativi, riflettendo su ciò che ha funzionato e ciò che non ha funzionato.
Incontra GEPA: un ottimizzatore di prompt riflessivo che può superare GRPO fino al 20% con 35 volte meno rollout!🧵

38,3K
situazione ipotetica -
sono un'azienda di intelligenza artificiale che ha ridotto il costo di trasferimento e archiviazione dei modelli a zero. posso fornire a ciascun utente il proprio modello senza costi aggiuntivi.
cosa faccio? addestro direttamente modelli specifici per l'utente sui loro dati? o utilizzo RLHF sulle valutazioni della chat? o qualcos'altro?
16,58K
il cervello umano riserva il 40% della sua elaborazione esclusivamente per la visione. I moderni LLM si sono evoluti in qualche modo senza questo completamente.

jack morris29 lug 2025
è molto sorprendente che quindici anni di ricerca intensa sulla visione artificiale non abbiano contribuito a nulla verso l'AGI se non a migliori ottimizzatori.
non abbiamo ancora modelli che diventano più intelligenti quando diamo loro gli occhi.
44,23K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari