Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Direttore della robotica e scienziato illustre di NVIDIA. Co-Lead del laboratorio GEAR. Risolvere l'AGI fisica, un motore alla volta. Stanford Ph.D. 1° stagista di OpenAI.
Sto osservando un mini paradosso di Moravec nella robotica: le ginnastiche che sono difficili per gli esseri umani sono molto più facili per i robot rispetto a compiti "non sexy" come cucinare, pulire e assemblare. Questo porta a una dissonanza cognitiva per le persone al di fuori del settore, "quindi, i robot possono fare parkour e breakdance, ma perché non possono prendersi cura del mio cane?" Fidati, i miei genitori mi hanno chiesto di questo più di quanto pensi ...
Il "paradosso di Moravec dei robot" crea anche l'illusione che le capacità fisiche dell'IA siano molto più avanzate di quanto non siano in realtà. Non sto isolando Unitree, poiché si applica ampiamente a tutte le recenti dimostrazioni acrobatiche nel settore. Ecco un semplice test: se metti un muro di fronte al robot che fa il salto laterale, esso si schianterà contro di esso a tutta forza e farà uno spettacolo. Perché sta semplicemente sovradattando quel singolo movimento di riferimento, senza alcuna consapevolezza dell'ambiente circostante.
Ecco perché esiste il paradosso: è molto più facile addestrare un "ginnasta cieco" che un robot che vede e manipola. Il primo può essere risolto interamente in simulazione e trasferito zero-shot nel mondo reale, mentre il secondo richiede rendering estremamente realistici, fisica dei contatti e dinamiche disordinate degli oggetti nel mondo reale - nessuna di queste può essere simulata bene.
Immagina di poter addestrare LLM non da internet, ma da un gioco di console testuale puramente creato a mano. I robotici sono stati fortunati. Ci troviamo a vivere in un mondo in cui i motori fisici accelerati sono così bravi che possiamo cavarcela con acrobazie impressionanti usando letteralmente zero dati reali. Ma non abbiamo ancora scoperto lo stesso codice di cheat per la destrezza generale.
Fino ad allora, continueremo a essere interrogati dai nostri genitori confusi.
318,94K
Il mio standard per l'AGI è molto più semplice: un'IA che cucina una bella cena a casa di chiunque per qualsiasi cucina. Il Test di Turing Fisico è molto probabilmente più difficile del Premio Nobel. Il paradosso di Moravec continuerà a perseguitarci, diventando sempre più grande e oscuro, per il decennio a venire.

Thomas Wolf19 lug, 16:06
Il mio standard per l'AGI è un'IA che vince un Premio Nobel per una nuova teoria che ha originato.
99,01K
Sono stato un po' silenzioso su X recentemente. L'anno passato è stata un'esperienza trasformativa. Grok-4 e Kimi K2 sono fantastici, ma il mondo della robotica è un meraviglioso far west. Sembra il NLP nel 2018 quando è stato pubblicato GPT-1, insieme a BERT e a mille altri fiori che sono sbocciati. Nessuno sapeva quale sarebbe diventato alla fine ChatGPT. I dibattiti erano accesi. L'entropia era alle stelle. Le idee erano incredibilmente divertenti.
Credo che il GPT-1 della robotica sia già da qualche parte su Arxiv, ma non sappiamo esattamente quale sia. Potrebbe essere modelli del mondo, RL, apprendimento da video umani, sim2real, real2sim, ecc. ecc., o qualsiasi combinazione di essi. I dibattiti sono accesi. L'entropia è alle stelle. Le idee sono incredibilmente divertenti, invece di spremere gli ultimi pochi % su AIME & GPQA.
La natura della robotica complica anche notevolmente lo spazio di design. A differenza del mondo pulito dei bit per gli LLM (stringhe di testo), noi robotici dobbiamo affrontare il mondo disordinato degli atomi. Dopotutto, c'è un pezzo di metallo definito dal software nel loop. I normies degli LLM potrebbero trovare difficile crederlo, ma finora i robotici non riescono ancora a mettersi d'accordo su un benchmark! Robot diversi hanno diversi envelope di capacità - alcuni sono migliori nell'acrobatica mentre altri nella manipolazione degli oggetti. Alcuni sono destinati all'uso industriale mentre altri sono per compiti domestici. Il cross-embodiment non è solo una novità di ricerca, ma una caratteristica essenziale per un cervello robotico universale.
Ho parlato con dozzine di leader C-suite di varie aziende robotiche, vecchie e nuove. Alcuni vendono il corpo intero. Alcuni vendono parti del corpo come mani agili. Molti altri vendono le pale per fabbricare nuovi corpi, creare simulazioni o raccogliere enormi quantità di dati. Lo spazio delle idee imprenditoriali è selvaggio quanto la ricerca stessa. È una nuova corsa all'oro, come non ne abbiamo viste da quando è arrivata l'onda di ChatGPT nel 2022.
Il momento migliore per entrare è quando i picchi di non consenso. Siamo ancora all'inizio di una curva di perdita - ci sono forti segni di vita, ma molto, molto lontani dalla convergenza. Ogni passo di gradiente ci porta nell'ignoto. Ma una cosa la so per certo - non c'è AGI senza toccare, sentire ed essere incarnati nel mondo disordinato.
Su una nota più personale - gestire un laboratorio di ricerca comporta un livello completamente nuovo di responsabilità. Dare aggiornamenti direttamente al CEO di un'azienda da 4 trilioni di dollari è, per dirla in modo semplice, sia emozionante che assorbente per il mio peso di attenzione. Sono finiti i giorni in cui potevo rimanere aggiornato e immergermi in ogni notizia sull'IA.
Cercherò di ritagliarmi del tempo per condividere di più del mio viaggio.

876,92K
Il test di Turing fisico: la tua casa è in completo disordine dopo un hackathon domenicale. Il lunedì sera, torni a casa in un salotto immacolato e una cena a lume di candela. E non si poteva dire se fosse stato lì un essere umano o una macchina. Ingannevolmente semplice, follemente difficile.
È la prossima stella polare dell'intelligenza artificiale. Il sogno che mi tiene sveglio alle 12 del mattino in laboratorio. La visione per la prossima piattaforma di elaborazione che automatizza blocchi di atomi invece di blocchi di bit.
Grazie Sequoia per avermi ospitato ad AI Ascent! Di seguito è riportato il mio intervento completo sui primi principi per risolvere la robotica generica: come pensiamo alla strategia dei dati e alle leggi di scalabilità. Vi assicuro che saranno 17 minuti di cui non ve ne pentirete!
107,19K
Un giorno, nel prossimo decennio, avremo robot in ogni casa, in ogni ospedale e in ogni fabbrica, che faranno ogni lavoro noioso e pericoloso con destrezza sovrumana. Quel giorno sarà conosciuto come "giovedì". Nemmeno Turing oserebbe sognare la nostra vita nei suoi sogni più sfrenati.

signüll21 apr 2025
Abbiamo superato il test di Turing e a nessuno è fregato un cazzo. Nessuna parata. Nessun titolo in prima pagina. proprio... un'alzata di spalle casuale. Come "Oh sì, le macchine sono abbastanza intelligenti da ingannarci ora. Comunque, cosa c'è per pranzo?"
Quel silenzio ti dice tutto sul ritmo con cui ci stiamo muovendo.
Tornando alle mie lezioni di CS, il test di Turing era trattato come il boss finale. Ora ogni sfondamento è un altro dannato martedì.
101,93K
le olimpiadi umane nel 2030 saranno uno spettacolo straordinario

Jim Fan5 feb 2025
Abbiamo realizzato robot umanoidi ispirati a Cristiano Ronaldo, LeBron James e Kobe Bryant! Questi sono reti neurali che funzionano su hardware reale nel nostro laboratorio GEAR. La maggior parte delle dimostrazioni di robot che vedi online accelerano i video. Noi in realtà *li rallentiamo* così puoi goderti i movimenti fluidi.
Sono entusiasta di annunciare "ASAP", un modello "real2sim2real" che padroneggia movimenti estremamente fluidi e dinamici per il controllo dell'intero corpo umanoide.
Prealleniamo il robot in simulazione prima, ma c'è un noto "sim2real" gap: è molto difficile per le equazioni fisiche progettate a mano corrispondere alla dinamica del mondo reale.
La nostra soluzione è semplice: basta implementare una politica preaddestrata su hardware reale, raccogliere dati e riprodurre il movimento in simulazione. La riproduzione avrà ovviamente molti errori, ma questo fornisce un segnale ricco per compensare la discrepanza fisica. Utilizza un'altra rete neurale per apprendere il delta. Fondamentalmente, "aggiustiamo" un motore fisico tradizionale, in modo che il robot possa sperimentare quasi il mondo reale su larga scala nelle GPU.
Il futuro è la simulazione ibrida: combinare la potenza dei motori di simulazione classici affinati nel corso dei decenni e l'incredibile capacità delle moderne reti neurali di catturare un mondo disordinato.
45,81K
Abbiamo realizzato robot umanoidi ispirati a Cristiano Ronaldo, LeBron James e Kobe Bryant! Questi sono reti neurali che funzionano su hardware reale nel nostro laboratorio GEAR. La maggior parte delle dimostrazioni di robot che vedi online accelerano i video. Noi in realtà *li rallentiamo* così puoi goderti i movimenti fluidi.
Sono entusiasta di annunciare "ASAP", un modello "real2sim2real" che padroneggia movimenti estremamente fluidi e dinamici per il controllo dell'intero corpo umanoide.
Prealleniamo il robot in simulazione prima, ma c'è un noto "sim2real" gap: è molto difficile per le equazioni fisiche progettate a mano corrispondere alla dinamica del mondo reale.
La nostra soluzione è semplice: basta implementare una politica preaddestrata su hardware reale, raccogliere dati e riprodurre il movimento in simulazione. La riproduzione avrà ovviamente molti errori, ma questo fornisce un segnale ricco per compensare la discrepanza fisica. Utilizza un'altra rete neurale per apprendere il delta. Fondamentalmente, "aggiustiamo" un motore fisico tradizionale, in modo che il robot possa sperimentare quasi il mondo reale su larga scala nelle GPU.
Il futuro è la simulazione ibrida: combinare la potenza dei motori di simulazione classici affinati nel corso dei decenni e l'incredibile capacità delle moderne reti neurali di catturare un mondo disordinato.
543,11K
Che un *secondo* documento sia stato pubblicato con tonnellate di segreti sul volano RL e ragionamento *multimodale* in stile o1 non era nei miei piani per oggi. I documenti di Kimi (un'altra startup) e DeepSeek hanno sorprendentemente convergito su risultati simili:
> Non è necessario un complesso ricerca ad albero come MCTS. Basta linearizzare la traccia di pensiero e fare una buona vecchia previsione autoregressiva;
> Non è necessario un valore delle funzioni che richiedono un'altra costosa copia del modello;
> Non è necessario un modello di ricompensa denso. Fare affidamento il più possibile sulla verità di base, sul risultato finale.
Differenze:
> DeepSeek adotta l'approccio AlphaZero - bootstrap puramente attraverso RL senza input umano, cioè "cold start". Kimi adotta l'approccio AlphaGo-Master: leggera SFT per riscaldarsi attraverso tracce CoT progettate tramite prompt.
> I pesi di DeepSeek sono sotto licenza MIT (leadership di pensiero!); Kimi non ha ancora rilasciato un modello.
> Kimi mostra forti prestazioni multimodali (!) su benchmark come MathVista, che richiede comprensione visiva della geometria, test di QI, ecc.
> Il documento di Kimi ha MOLTI più dettagli sul design del sistema: infrastruttura RL, cluster ibrido, sandbox di codice, strategie di parallelismo; e dettagli di apprendimento: lungo contesto, compressione CoT, curriculum, strategia di campionamento, generazione di casi di test, ecc.
Letture ottimiste in un giorno festivo!

300,42K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari