Die Brillanz von @karpathy besteht darin, äußerst komplexe Konzepte zu destillieren und sie einfach verständlich und in kleinem Maßstab umsetzbar zu machen. Alles, was es brauchte, war Claude Code und $10 auf @runpod, um einen einzelnen H100 zu starten, und ich hatte einen weltklasse ML-Forscher, der im Autopilot-Modus arbeitete. Ich nehme das allgemeine Konzept der Autorecherche und wende es auf eine Inferenzpipeline an, an der ich gearbeitet habe (glücklicherweise ohne GPU). Alles macht jetzt so viel Spaß.
Andrej Karpathy
Andrej Karpathy8. März, 03:53
Ich habe das Projekt "autoresearch" in ein neues, eigenständiges Minimal-Repo verpackt, falls die Leute am Wochenende damit spielen möchten. Es ist im Grunde der Kern des LLM-Trainings von nanochat, der auf eine Version mit einer GPU und einer Datei von ~630 Zeilen Code reduziert wurde, dann: - der Mensch arbeitet am Prompt (.md) - der KI-Agent arbeitet am Trainingscode (.py) Das Ziel ist es, Ihre Agenten so zu konstruieren, dass sie unendlich schnell Fortschritte in der Forschung machen, ohne dass Sie selbst involviert sind. Auf dem Bild ist jeder Punkt ein vollständiger LLM-Trainingslauf, der genau 5 Minuten dauert. Der Agent arbeitet in einer autonomen Schleife auf einem Git-Feature-Branch und sammelt Git-Commits zum Trainingsskript, während er bessere Einstellungen (mit niedrigerem Validierungsverlust am Ende) der Architektur des neuronalen Netzwerks, des Optimierers, aller Hyperparameter usw. findet. Sie können sich vorstellen, den Forschungsfortschritt verschiedener Prompts, verschiedener Agenten usw. zu vergleichen. Teil Code, Teil Sci-Fi und eine Prise Psychose :)
@karpathy @runpod braucht Freunde wie @ryaneshea, um eure (schwachen) Ausreden zu beseitigen, um nicht einfach Dinge zu tun.
471