Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jason Wei
AI-forsker @openai
Jason Wei lagt ut på nytt
📣 Glade for å dele vår virkelige studie av en LLM klinisk copilot, et samarbeid mellom @OpenAI og @PendaHealth.
På tvers av 39 849 live pasientbesøk hadde klinikere med AI en relativ reduksjon på 16 % i diagnostiske feil og en 13 % reduksjon i behandlingsfeil sammenlignet med de uten. 🧵
296,97K
Jason Wei lagt ut på nytt
Dette er min forelesning fra 2 måneder siden på @Cornell
"Hvordan øker jeg produksjonen min?" Et naturlig svar er "Jeg vil bare jobbe noen timer til." Å jobbe lenger kan hjelpe, men til slutt treffer du en fysisk grense.
Et bedre spørsmål er: "Hvordan øker jeg produksjonen min uten å øke inngangen så mye?" Det er innflytelse.
Vi hører «innflytelse» så ofte at implikasjonen er lett å overse. Min personlige favorittkategorisering av innflytelse er av Naval Ravikant: menneskelig arbeidskraft, kapital og kode/media. Hver av dem har drevet store bølger av verdiskaping i historien.
Men når en innflytelseskilde blir populær (tenk YouTube-kanaler i dag kontra for ti år siden), komprimerer konkurransen marginen. Så når en ny innflytelse dukker opp, er det en sjelden sjanse for store gevinster.
I dette foredraget beskriver jeg AI som den nye innflytelsen. En AI-agent blander arbeidsinnflytelse (den fungerer for deg og er uten tillatelse) med kodeinnflytelse (du kan kopiere og lime den inn).
Det er klisjé å si at AI vil skape massiv rikdom. Men ved å bruke denne innflytelseslinsen kan vi tolke den støyende AI-nyhetssyklusen på en konsekvent måte og oppdage de virkelige mulighetene.
Takk @unsojo for at du var vertskap for meg!
402,41K
Nytt blogginnlegg om asymmetri i verifikasjon og «verifikatorloven»:
Asymmetri i verifisering – ideen om at noen oppgaver er mye lettere å verifisere enn å løse – er i ferd med å bli en viktig idé ettersom vi har RL som endelig fungerer generelt.
Gode eksempler på asymmetri i verifisering er ting som sudoku-gåter, å skrive koden for et nettsted som instagram og BrowseComp-problemer (tar ~100 nettsteder for å finne svaret, men lett å verifisere når du har svaret).
Andre oppgaver har nesten symmetri av verifisering, som å summere to 900-sifrede tall eller noen databehandlingsskript. Likevel er andre oppgaver mye lettere å foreslå gjennomførbare løsninger for enn å verifisere dem (f.eks. faktasjekke et langt essay eller oppgi en ny diett som "bare spis bison").
En viktig ting å forstå om asymmetri i verifisering er at du kan forbedre asymmetrien ved å gjøre litt arbeid på forhånd. For eksempel hvis du har svarnøkkelen til en matematisk oppgave eller hvis du har testtilfeller for et Leetcode-problem. Dette øker settet med problemer med ønskelig verifiseringsasymmetri betraktelig.
"Verifikatorloven" sier at det er enkelt å trene AI til å løse en oppgave er proporsjonalt med hvor verifiserbar oppgaven er. Alle oppgaver som er mulige å løse og enkle å verifisere vil bli løst av AI. Muligheten til å lære opp kunstig intelligens til å løse en oppgave er proporsjonal med om oppgaven har følgende egenskaper:
1. Objektiv sannhet: alle er enige om hva gode løsninger er
2. Rask å verifisere: enhver gitt løsning kan verifiseres på noen få sekunder
3. Skalerbar for å verifisere: mange løsninger kan verifiseres samtidig
4. Lav støy: verifiseringen er så tett korrelert til løsningskvaliteten som mulig
5. Kontinuerlig belønning: det er lett å rangere godheten til mange løsninger for et enkelt problem
En åpenbar forekomst av verifikatorloven er det faktum at de fleste benchmarks som er foreslått i AI er enkle å verifisere og så langt har blitt løst. Legg merke til at praktisk talt alle populære benchmarks de siste ti årene passer til kriteriene #1-4; Benchmarks som ikke oppfyller kriteriene #1-4 vil slite med å bli populære.
Hvorfor er verifiserbarhet så viktig? Mengden læring i AI som skjer maksimeres når kriteriene ovenfor er oppfylt; Du kan ta mange gradienttrinn der hvert trinn har mye signal. Hastigheten på iterasjonen er avgjørende – det er grunnen til at fremgangen i den digitale verden har vært så mye raskere enn fremgangen i den fysiske verden.
AlphaEvolve fra Google er et av de beste eksemplene på å utnytte asymmetri i verifisering. Den fokuserer på oppsett som passer til alle de ovennevnte kriteriene, og har ført til en rekke fremskritt innen matematikk og andre felt. Forskjellig fra det vi har gjort innen AI de siste to tiårene, er det et nytt paradigme ved at alle problemer er optimalisert i en setting der togsettet tilsvarer testsettet.
Asymmetri i verifisering er overalt, og det er spennende å tenke på en verden av taggete intelligens der alt vi kan måle vil bli løst.

298,79K
Straight banger, leste jeg umiddelbart

Kevin Lu10. juli, 00:01
Hvorfor du bør slutte å jobbe med RL-forskning og i stedet jobbe med produkt //
Teknologien som låste opp det store skaleringsskiftet innen AI er internett, ikke transformatorer
Jeg tror det er velkjent at data er det viktigste innen AI, og også at forskere velger å ikke jobbe med det uansett. ... Hva vil det si å jobbe med data (på en skalerbar måte)?
Internett ga en rik kilde til rikelig med data, som var mangfoldig, ga en naturlig læreplan, representerte kompetansene folk faktisk bryr seg om, og var en økonomisk levedyktig teknologi å distribuere i stor skala - det ble det perfekte komplementet til neste token-prediksjon og var den opprinnelige suppen for AI å ta av.
Uten transformatorer kunne et hvilket som helst antall tilnærminger ha tatt av, vi kunne sannsynligvis ha CNN-er eller statlige rommodeller på nivå med GPT-4.5. Men det har ikke vært en dramatisk forbedring i basismodeller siden GPT-4. Resonneringsmodeller er gode i smale domener, men ikke et så stort sprang som GPT-4 var i mars 2023 (for over 2 år siden...)
Vi har noe flott med forsterkende læring, men min dype frykt er at vi vil gjenta feilene fra fortiden (2015-2020-æraen RL) og gjøre RL-forskning som ikke betyr noe.
På samme måte som internett var dobbelen av overvåket forhåndstrening, hva vil være dualen av RL som vil føre til et massivt fremskritt som GPT-1 -> GPT-4? Jeg synes det ser ut som forsknings-produkt-co-design.

18,64K
Vi har ikke AI som forbedrer seg selv ennå, og når vi gjør det, vil det være en game-changer. Med mer visdom nå sammenlignet med GPT-4-dagene, er det åpenbart at det ikke vil være en "rask start", men heller ekstremt gradvis over mange år, sannsynligvis et tiår.
Det første du må vite er at selvforbedring, det vil si modeller som trener seg selv, ikke er binær. Tenk på scenariet med GPT-5 som trener GPT-6, noe som ville være utrolig. Ville GPT-5 plutselig gå fra å ikke kunne trene GPT-6 i det hele tatt til å trene den ekstremt dyktig? Definitivt ikke. De første GPT-6-treningskjøringene ville sannsynligvis være ekstremt ineffektive i tid og beregning sammenlignet med menneskelige forskere. Og først etter mange forsøk, ville GPT-5 faktisk være i stand til å trene GPT-6 bedre enn mennesker.
For det andre, selv om en modell kunne trene seg selv, ville den ikke plutselig bli bedre på alle domener. Det er en gradient av vanskelighetsgrad i hvor vanskelig det er å forbedre seg selv på ulike domener. For eksempel fungerer kanskje selvforbedring bare i begynnelsen på domener som vi allerede vet hvordan vi enkelt kan fikse etter trening, som grunnleggende hallusinasjoner eller stil. Neste vil være matematikk og koding, som krever mer arbeid, men har etablerte metoder for å forbedre modeller. Og så i ytterste konsekvens kan du forestille deg at det er noen oppgaver som er veldig vanskelige for selvforbedring. For eksempel evnen til å snakke Tlingit, et indianerspråk som snakkes av ~500 mennesker. Det vil være veldig vanskelig for modellen å forbedre seg selv på å snakke Tlingit, da vi ikke har måter å løse språk med lite ressurser som dette ennå, bortsett fra å samle inn mer data som vil ta tid. Så på grunn av gradienten av vanskelighetsgrad av selvforbedring, vil ikke alt skje på en gang.
Til slutt, kanskje dette er kontroversielt, men til syvende og sist er fremgang innen vitenskap flaskehals av eksperimenter i den virkelige verden. Noen tror kanskje at å lese alle biologiartikler vil fortelle oss kuren mot kreft, eller at å lese alle ML-artikler og mestre all matematikk vil tillate deg å trene GPT-10 perfekt. Hvis dette var tilfelle, ville de som leste flest artikler og studerte mest teori være de beste AI-forskerne. Men det som virkelig skjedde er at AI (og mange andre felt) ble dominert av hensynsløst empiriske forskere, noe som gjenspeiler hvor mye fremgang som er basert på virkelige eksperimenter i stedet for rå intelligens. Så poenget mitt er at selv om en supersmart agent kan designe 2x eller til og med 5 ganger bedre eksperimenter enn våre beste menneskelige forskere, må de til syvende og sist fortsatt vente på at eksperimentene skal kjøres, noe som ville være en akselerasjon, men ikke en rask start.
Oppsummert er det mange flaskehalser for fremgang, ikke bare rå intelligens eller et selvforbedringssystem. AI vil løse mange domener, men hvert domene har sin egen fremgangshastighet. Og selv den høyeste intelligensen vil fortsatt kreve eksperimenter i den virkelige verden. Så det blir en akselerasjon og ikke en rask start, takk for at du leser ranten min
339,88K
Jeg vil si at vi utvilsomt er på AGI når AI kan skape en ekte, levende enhjørning. Og nei, jeg mener ikke et selskap på 1 milliard dollar, dere nerder, jeg mener en bokstavelig talt rosa hest med et spiralhorn. Et mønster på vitenskapelige fremskritt innen genteknologi og celleprogrammering. Ting fra barndomsdrømmer. Tør jeg si at det vil skje i vår levetid
84,29K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til