Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
NVIDIAs direktør for robotikk og fremtredende forsker. Medleder av GEAR-laboratoriet. Løse fysisk AGI, en motor om gangen. Stanford Ph.D. OpenAIs 1.
Jeg observerer et mini-Moravecs paradoks innen robotikk: gymnastikk som er vanskelig for mennesker er mye enklere for roboter enn "usexy" oppgaver som matlaging, rengjøring og montering. Det fører til en kognitiv dissonans for folk utenfor feltet, "så roboter kan parkour og breakdance, men hvorfor kan de ikke ta vare på hunden min?" Stol på meg, jeg ble spurt av foreldrene mine om dette mer enn du tror ...
"Robot Moravecs paradoks" skaper også en illusjon om at fysiske AI-evner er mye mer avanserte enn de egentlig er. Jeg skiller ikke ut Unitree, da det gjelder bredt for alle nyere akrobatiske demoer i bransjen. Her er en enkel test: Hvis du setter opp en vegg foran den sidevendende roboten, vil den smelle inn i den med full kraft og lage et skuespill. Fordi det bare overpasser den ene referansebevegelsen, uten noen bevissthet om omgivelsene.
Her er grunnen til at paradokset eksisterer: det er mye lettere å trene en "blind gymnast" enn en robot som ser og manipulerer. Førstnevnte kan løses helt i simulering og overføres zero-shot til den virkelige verden, mens sistnevnte krever ekstremt realistisk gjengivelse, kontaktfysikk og rotete objektdynamikk i den virkelige verden - ingen av dem kan simuleres godt.
Tenk deg at du kan trene LLM-er ikke fra internett, men fra et rent håndlaget tekstkonsollspill. Robotikere var heldige. Vi lever tilfeldigvis i en verden der akselererte fysikkmotorer er så gode at vi kan slippe unna med imponerende akrobatikk ved å bruke bokstavelig talt null reelle data. Men vi har ennå ikke oppdaget den samme juksekoden for generell fingerferdighet.
Inntil da vil vi fortsatt bli avhørt av våre forvirrede foreldre.
318,93K
Baren min for AGI er langt enklere: en AI som lager en god middag hjemme hos hvem som helst for ethvert kjøkken. Den fysiske Turing-testen er høyst sannsynlig vanskeligere enn Nobelprisen. Moravecs paradoks vil fortsette å hjemsøke oss, truende større og mørkere, i tiåret som kommer.

Thomas Wolf19. juli, 16:06
Min bar for AGI er en AI som vinner en Nobelpris for en ny teori den oppsto.
99,01K
Jeg har vært litt stille på X i det siste. Det siste året har vært en transformerende opplevelse. Grok-4 og Kimi K2 er fantastiske, men robotverdenen er et vidunderlig ville vesten. Det føles som NLP i 2018 da GPT-1 ble publisert, sammen med BERT og tusen andre blomster som blomstret. Ingen visste hvilken som til slutt ville bli ChatGPT. Debattene var opphetede. Entropien var skyhøy. Ideer var sinnsykt morsomme.
Jeg tror GPT-1 for robotikk allerede er et sted på Arxiv, men vi vet ikke nøyaktig hvilken. Kan være verdensmodeller, RL, læring fra menneskelig video, sim2real, real2sim, etc. etc, eller en hvilken som helst kombinasjon av dem. Debattene er opphetede. Entropien er skyhøy. Ideer er sinnsykt morsomme, i stedet for å presse de siste % på AIME og GPQA.
Robotikkens natur kompliserer også designområdet i stor grad. I motsetning til den rene verdenen av biter for LLM-er (tekststrenger), må vi robotikere forholde oss til atomenes rotete verden. Tross alt er det en klump programvaredefinert metall i loopen. LLM-normer kan finne det vanskelig å tro, men så langt kan robotikere fortsatt ikke bli enige om en målestokk! Ulike roboter har forskjellige kapasitetskonvolutter - noen er bedre på akrobatikk mens andre på objektmanipulering. Noen er ment for industriell bruk, mens andre er for husholdningsoppgaver. Kryssutførelse er ikke bare en forskningsnyhet, men en viktig funksjon for en universell robothjerne.
Jeg har snakket med dusinvis av C-suite-ledere fra forskjellige robotselskaper, gamle og nye. Noen selger hele kroppen. Noen selger kroppsdeler som fingernemme hender. Mange flere selger spadene for å produsere nye kropper, lage simuleringer eller samle inn enorme mengder data. Forretningsidéområdet er like vilt som forskningen selv. Det er et nytt gullrush, som vi ikke har sett siden ChatGPT-bølgen i 2022.
Den beste tiden å delta på er når ikke-konsensus topper seg. Vi er fortsatt i starten av en tapskurve - det er sterke tegn på liv, men langt, langt unna konvergens. Hvert gradienttrinn tar oss inn i det ukjente. Men en ting vet jeg sikkert - det er ingen AGI uten å berøre, føle og bli legemliggjort i den rotete verdenen.
På et mer personlig notat - å drive et forskningslaboratorium kommer med et helt nytt nivå av ansvar. Å gi oppdateringer direkte til administrerende direktør i et selskap på $4T er, for å si det mildt, både spennende og altoppslukende av oppmerksomhetsvektene mine. Borte er tiden da jeg kunne holde meg oppdatert på og dykke dypt inn i alle AI-nyheter.
Jeg skal prøve å sette av tid til å dele mer av reisen min.

876,92K
Den fysiske Turing-testen: Huset ditt er et fullstendig rot etter et hackathon på søndag. Mandag kveld kommer du hjem til en plettfri stue og en middag med levende lys. Og du kunne ikke se om et menneske eller en maskin hadde vært der. Villedende enkelt, sinnsykt vanskelig.
Det er den neste nordstjernen for AI. Drømmen som holder meg våken kl. 12 på laboratoriet. Visjonen for den neste dataplattformen som automatiserer biter av atomer i stedet for biter av biter.
Takk Sequoia for at du var vert for meg på AI Ascent! Nedenfor er hele foredraget mitt om de første prinsippene for å løse generell robotikk: hvordan vi tenker på datastrategien og skaleringslovene. Jeg forsikrer deg om at det vil være 17 minutter du ikke angrer på!
107,19K
En dag i løpet av det neste tiåret vil vi ha roboter i hvert hjem, hvert sykehus og fabrikk, som gjør alle kjedelige og farlige jobber med overmenneskelig fingerferdighet. Den dagen vil bli kjent som "torsdag". Ikke engang Turing ville våge å drømme om livet vårt i sine villeste drømmer.

signüll21. apr. 2025
we crossed the turing test & no one gave a shit. no parades. no front page headlines. just… a casual shrug. like “oh yeah, the machines are smart enough to fool us now. anyway, what’s for lunch?”
that silence tells you everything about the pace we’re moving at.
back in my cs classes, the turing test was treated like the final boss. now every break through is another god damn tuesday.
101,92K
Humanoid-OL i 2030 vil være litt av et skue

Jim Fan5. feb. 2025
Vi RL'et humanoide roboter til Cristiano Ronaldo, LeBron James og Kobe Byrant! Dette er nevrale nett som kjører på ekte maskinvare på GEAR-laboratoriet vårt. De fleste robotdemoer du ser på nettet, øker hastigheten på videoer. Vi *bremser dem faktisk* slik at du kan nyte de flytende bevegelsene.
Jeg er glad for å kunngjøre "ASAP", en "real2sim2real"-modell som mestrer ekstremt jevne og dynamiske bevegelser for humanoid helkroppskontroll.
Vi forhåndstrener roboten i simulering først, men det er et beryktet "sim2real"-gap: det er veldig vanskelig for håndkonstruerte fysikkligninger å matche dynamikken i den virkelige verden.
Løsningen vår er enkel: bare distribuer en forhåndstrent policy på ekte maskinvare, samle inn data og spill av bevegelsen på nytt i sim. Reprisen vil åpenbart ha mange feil, men det gir et rikt signal for å kompensere for fysikkavviket. Bruk et annet nevralt nett for å lære deltaet. I utgangspunktet "vi opp" en tradisjonell fysikkmotor, slik at roboten kan oppleve nesten den virkelige verden i stor skala i GPUer.
Fremtiden er hybridsimulering: kombiner kraften til klassiske simmotorer som er utviklet gjennom flere tiår og den forbløffende evnen til moderne NN-er til å fange en rotete verden.
45,81K
Vi RL'et humanoide roboter til Cristiano Ronaldo, LeBron James og Kobe Byrant! Dette er nevrale nett som kjører på ekte maskinvare på GEAR-laboratoriet vårt. De fleste robotdemoer du ser på nettet, øker hastigheten på videoer. Vi *bremser dem faktisk* slik at du kan nyte de flytende bevegelsene.
Jeg er glad for å kunngjøre "ASAP", en "real2sim2real"-modell som mestrer ekstremt jevne og dynamiske bevegelser for humanoid helkroppskontroll.
Vi forhåndstrener roboten i simulering først, men det er et beryktet "sim2real"-gap: det er veldig vanskelig for håndkonstruerte fysikkligninger å matche dynamikken i den virkelige verden.
Løsningen vår er enkel: bare distribuer en forhåndstrent policy på ekte maskinvare, samle inn data og spill av bevegelsen på nytt i sim. Reprisen vil åpenbart ha mange feil, men det gir et rikt signal for å kompensere for fysikkavviket. Bruk et annet nevralt nett for å lære deltaet. I utgangspunktet "vi opp" en tradisjonell fysikkmotor, slik at roboten kan oppleve nesten den virkelige verden i stor skala i GPUer.
Fremtiden er hybridsimulering: kombiner kraften til klassiske simmotorer som er utviklet gjennom flere tiår og den forbløffende evnen til moderne NN-er til å fange en rotete verden.
543,11K
At en *andre* artikkel falt med tonnevis av RL-svinghjulshemmeligheter og *multimodal* o1-stil resonnement er ikke på bingokortet mitt i dag. Kimis (en annen oppstart) og DeepSeek's papirer konvergerte bemerkelsesverdig på lignende funn:
> Ingen behov for komplekst tresøk som MCTS. Bare lineariser tankesporet og gjør gode gamle autoregressive prediksjoner;
> Ingen behov for verdifunksjoner som krever en annen dyr kopi av modellen;
> Ikke behov for tett belønningsmodellering. Stol så mye som mulig på groundtruth, sluttresultat.
Forskjeller:
> DeepSeek gjør AlphaZero-tilnærming - rent bootstrap gjennom RL uten menneskelig input, dvs. Kimi gjør AlphaGo-Master-tilnærmingen: lett SFT for å varme opp gjennom hurtigkonstruerte CoT-spor.
> DeepSeek-vekter er MIT-lisens (tankelederskap!); Kimi har ikke en modellutgivelse ennå.
> Kimi viser sterk multimodal ytelse (!) på benchmarks som MathVista, noe som krever visuell forståelse av geometri, IQ-tester, etc.
> Kimi-artikkelen har MYE flere detaljer om systemdesignet: RL-infrastruktur, hybrid klynge, kodesandkasse, parallellitetsstrategier; og læringsdetaljer: lang kontekst, CoT-komprimering, læreplan, prøvetakingsstrategi, generering av testcaser, etc.
Optimistisk lesning på en ferie!

300,42K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til