Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Zwillinge Denken, leitender Mitarbeiter RS @GoogleDeepMind. 🇯🇵 -geboren 🇨🇳🇨🇦 . z.B.: Gemini Multilinguality Post-Train Lead, GPT-4 @OpenAI (JP: @shanegJP)
Wir haben 2021 auf der NeurIPS die erste "datenzentrierte" RL-Workshop organisiert (während des Bärenmarktes für Deep RL). Es ist schön, das jetzt wieder in der Ära der LLMs und realen RL-Umgebungen zu sehen.


Andrej Karpathy28. Aug. 2025
In der Ära des Pretrainings war der Internettext entscheidend. Man wollte hauptsächlich eine große, vielfältige und qualitativ hochwertige Sammlung von Internetdokumenten, um daraus zu lernen.
In der Ära des überwachten Feintunings waren es Gespräche. Vertragsarbeiter werden eingestellt, um Antworten auf Fragen zu erstellen, ähnlich wie man es auf Stack Overflow / Quora usw. sehen würde, aber ausgerichtet auf LLM-Anwendungsfälle.
Keine der beiden oben genannten wird verschwinden (meiner Meinung nach), aber in dieser Ära des verstärkenden Lernens sind es jetzt die Umgebungen. Im Gegensatz zu den oben genannten geben sie dem LLM die Möglichkeit, tatsächlich zu interagieren - Aktionen zu ergreifen, Ergebnisse zu sehen usw. Das bedeutet, dass man hoffen kann, viel besser abzuschneiden als bei der statistischen Expertenimitation. Und sie können sowohl für das Training als auch für die Bewertung des Modells verwendet werden. Aber wie zuvor besteht das Kernproblem jetzt darin, eine große, vielfältige und qualitativ hochwertige Sammlung von Umgebungen zu benötigen, als Übungen, gegen die das LLM üben kann.
In gewisser Weise erinnert es mich an OpenAIs allererstes Projekt (Gym), das genau ein Framework war, das hoffte, eine große Sammlung von Umgebungen im gleichen Schema aufzubauen, aber das war lange bevor LLMs existierten. Die Umgebungen waren einfache akademische Kontrollaufgaben der damaligen Zeit, wie Cartpole, ATARI usw. Das @PrimeIntellect-Umgebungen-Hub (und das `verifiers`-Repo auf GitHub) baut die modernisierte Version, die speziell auf LLMs abzielt, und es ist eine großartige Anstrengung/Idee. Ich habe vorgeschlagen, dass jemand etwas Ähnliches wie das Anfang dieses Jahres aufbaut:
Umgebungen haben die Eigenschaft, dass, sobald das Grundgerüst des Frameworks vorhanden ist, die Gemeinschaft/Industrie prinzipiell über viele verschiedene Bereiche parallelisieren kann, was aufregend ist.
Letzter Gedanke - persönlich und langfristig bin ich optimistisch in Bezug auf Umgebungen und agentische Interaktionen, aber ich bin pessimistisch in Bezug auf verstärkendes Lernen speziell. Ich denke, dass Belohnungsfunktionen super sus sind, und ich denke, dass Menschen RL nicht zum Lernen verwenden (vielleicht tun sie das für einige motorische Aufgaben usw., aber nicht für intellektuelle Problemlösungsaufgaben). Menschen verwenden verschiedene Lernparadigmen, die erheblich leistungsfähiger und stichproben-effizienter sind und die noch nicht richtig erfunden und skaliert wurden, obwohl frühe Skizzen und Ideen existieren (als nur ein Beispiel die Idee des "System Prompt Learning", bei dem das Update auf Tokens/Contexts und nicht auf Gewichte verschoben wird und optional in Gewichte destilliert wird, als separater Prozess, ähnlich wie es der Schlaf tut).
7,16K
Asiatische Eltern: "(Nach Tagen der Verhandlungen). In Ordnung, du kannst 1-2 Jahre damit verbringen, AGI zu entwickeln. Aber nach AGI, bewirb dich für einen Doktortitel und mach uns stolz."

Shane Gu29. Aug. 2025
Lösen Sie ein Moonshot-Forschungsprojekt -> bewerben Sie sich dann für die Promotion
315
Top
Ranking
Favoriten