Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gemini Thinking, Senior Personeel RS @GoogleDeepMind. 🇯🇵 -geboren 🇨🇳🇨🇦 . bijv.: Gemini Meertaligheid Post-Train Lead, GPT-4 @OpenAI (JP: @shanegJP)
We organiseerden de eerste "data-centrische" RL-workshop op NeurIPS in 2021 (tijdens de berenmarkt voor deep RL). Geweldig om het nu weer te zien in het tijdperk van LLM's en real-world RL-omgevingen.


Andrej Karpathy28 aug 2025
In het tijdperk van pretraining was internettekst belangrijk. Je zou voornamelijk een grote, diverse, hoogwaardige verzameling internetdocumenten willen hebben om van te leren.
In het tijdperk van gesuperviseerde finetuning waren het gesprekken. Contractwerkers worden ingehuurd om antwoorden te creëren op vragen, een beetje zoals je zou zien op Stack Overflow / Quora, of iets dergelijks, maar gericht op LLM-gebruikscases.
Geen van beide bovenstaande gaat verdwijnen (imo), maar in dit tijdperk van versterkend leren zijn het nu omgevingen. In tegenstelling tot het bovenstaande geven ze de LLM de kans om daadwerkelijk te interageren - acties te ondernemen, uitkomsten te zien, enz. Dit betekent dat je kunt hopen veel beter te presteren dan statistische expertimitatie. En ze kunnen zowel voor modeltraining als evaluatie worden gebruikt. Maar net als voorheen is het kernprobleem nu dat er een grote, diverse, hoogwaardige set omgevingen nodig is, als oefeningen voor de LLM om tegen te oefenen.
In sommige opzichten word ik herinnerd aan OpenAI's allereerste project (gym), dat precies een framework was dat hoopte een grote verzameling omgevingen in hetzelfde schema op te bouwen, maar dit was lang voordat LLM's bestonden. Dus de omgevingen waren eenvoudige academische controle taken van die tijd, zoals cartpole, ATARI, enz. De @PrimeIntellect omgevingenhub (en de `verifiers` repo op GitHub) bouwt de gemoderniseerde versie specifiek gericht op LLM's, en het is een geweldige inspanning/idee. Ik heb eerder dit jaar voorgesteld dat iemand iets dergelijks zou bouwen:
Omgevingen hebben de eigenschap dat zodra het skelet van het framework op zijn plaats is, in principe de gemeenschap / industrie kan paralleliseren over veel verschillende domeinen, wat spannend is.
Laatste gedachte - persoonlijk en op lange termijn ben ik optimistisch over omgevingen en agentische interacties, maar ik ben pessimistisch over versterkend leren specifiek. Ik denk dat beloningsfuncties super verdacht zijn, en ik denk dat mensen RL niet gebruiken om te leren (misschien doen ze dat voor sommige motorische taken, maar niet voor intellectuele probleemoplossingstaken). Mensen gebruiken verschillende leerparadigma's die aanzienlijk krachtiger en monsterlijk efficiënter zijn en die nog niet goed zijn uitgevonden en opgeschaald, hoewel vroege schetsen en ideeën bestaan (als slechts één voorbeeld, het idee van "systeem prompt leren", waarbij de update naar tokens/contexten gaat en niet naar gewichten en optioneel distilleren naar gewichten als een apart proces, een beetje zoals slaap dat doet).
7,18K
Aziatische ouders: "(Na dagen van onderhandelingen). Goed, je kunt 1-2 jaar besteden aan het bouwen van AGI. Maar na AGI, vraag een PhD aan en maak ons trots."

Shane Gu29 aug 2025
Solve a moonshot research project -> then apply for PhD
323
Boven
Positie
Favorieten