Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Giám đốc Robot và Nhà khoa học xuất sắc của NVIDIA. Đồng trưởng phòng thí nghiệm GEAR. Giải quyết AGI vật lý, từng động cơ một. Stanford Ph.D. Thực tập sinh đầu tiên của OpenAI.
Tôi đang quan sát một nghịch lý Moravec mini trong lĩnh vực robot: những động tác thể dục khó khăn đối với con người lại dễ dàng hơn nhiều đối với robot so với những nhiệm vụ "không hấp dẫn" như nấu ăn, dọn dẹp và lắp ráp. Điều này dẫn đến sự mâu thuẫn nhận thức cho những người bên ngoài lĩnh vực, "vậy, robot có thể parkour và breakdance, nhưng tại sao chúng không thể chăm sóc cho chó của tôi?" Tin tôi đi, tôi đã bị bố mẹ hỏi về điều này nhiều hơn bạn nghĩ ...
Nghịch lý "Robot Moravec" cũng tạo ra ảo tưởng rằng khả năng AI vật lý tiên tiến hơn nhiều so với thực tế. Tôi không chỉ trích Unitree, vì điều này áp dụng rộng rãi cho tất cả các buổi trình diễn nhào lộn gần đây trong ngành. Đây là một bài kiểm tra đơn giản: nếu bạn đặt một bức tường trước robot lật bên, nó sẽ đâm vào đó với toàn bộ sức mạnh và tạo ra một cảnh tượng. Bởi vì nó chỉ đang quá khớp với chuyển động tham chiếu duy nhất đó, mà không có bất kỳ nhận thức nào về môi trường xung quanh.
Đây là lý do tại sao nghịch lý tồn tại: việc huấn luyện một "vận động viên thể dục mù" dễ hơn nhiều so với một robot có khả năng nhìn và thao tác. Cái trước có thể được giải quyết hoàn toàn trong mô phỏng và chuyển giao không cần huấn luyện sang thế giới thực, trong khi cái sau đòi hỏi việc tái hiện cực kỳ thực tế, vật lý tiếp xúc và động lực học của các đối tượng trong thế giới thực - không có điều nào trong số đó có thể được mô phỏng tốt.
Hãy tưởng tượng bạn có thể huấn luyện LLM không từ internet, mà từ một trò chơi console văn bản được tạo ra hoàn toàn bằng tay. Các nhà nghiên cứu robot đã gặp may. Chúng ta đang sống trong một thế giới mà các động cơ vật lý tăng tốc tốt đến mức chúng ta có thể thực hiện những động tác nhào lộn ấn tượng mà không cần dữ liệu thực tế. Nhưng chúng ta vẫn chưa phát hiện ra mã gian lận tương tự cho sự khéo léo tổng quát.
Cho đến lúc đó, chúng ta vẫn sẽ bị bố mẹ hỏi một cách bối rối.
318,96K
Tiêu chuẩn của tôi cho AGI thì đơn giản hơn nhiều: một AI nấu một bữa tối ngon tại nhà bất kỳ cho bất kỳ món ăn nào. Bài kiểm tra Turing vật lý có khả năng khó hơn cả Giải Nobel. Nghịch lý Moravec sẽ tiếp tục ám ảnh chúng ta, ngày càng lớn hơn và tối tăm hơn, trong thập kỷ tới.

Thomas Wolf16:06 19 thg 7
Tiêu chuẩn của tôi cho AGI là một AI giành giải Nobel cho một lý thuyết mới mà nó đã phát minh.
99,02K
Gần đây tôi đã hơi im lặng trên X. Năm qua là một trải nghiệm chuyển mình. Grok-4 và Kimi K2 thật tuyệt vời, nhưng thế giới robot là một miền tây hoang dã kỳ diệu. Nó giống như NLP vào năm 2018 khi GPT-1 được công bố, cùng với BERT và hàng ngàn bông hoa khác nở rộ. Không ai biết cái nào cuối cùng sẽ trở thành ChatGPT. Các cuộc tranh luận rất sôi nổi. Entropy thì cao ngất ngưởng. Những ý tưởng thì vô cùng thú vị.
Tôi tin rằng GPT-1 của robot đã ở đâu đó trên Arxiv, nhưng chúng ta không biết chính xác cái nào. Có thể là mô hình thế giới, RL, học từ video của con người, sim2real, real2sim, v.v., hoặc bất kỳ sự kết hợp nào trong số đó. Các cuộc tranh luận rất sôi nổi. Entropy thì cao ngất ngưởng. Những ý tưởng thì vô cùng thú vị, thay vì chỉ nén lại vài % cuối cùng trên AIME & GPQA.
Bản chất của robot cũng làm phức tạp không gian thiết kế. Khác với thế giới sạch sẽ của các bit cho LLMs (chuỗi văn bản), chúng tôi, những người làm robot, phải đối mặt với thế giới lộn xộn của các nguyên tử. Sau cùng, có một khối kim loại được định nghĩa bằng phần mềm trong vòng lặp. Những người bình thường về LLM có thể thấy khó tin, nhưng cho đến nay, các nhà nghiên cứu robot vẫn chưa thể đồng ý về một tiêu chuẩn! Các robot khác nhau có các khả năng khác nhau - một số thì giỏi nhào lộn trong khi những cái khác thì giỏi thao tác vật thể. Một số được thiết kế cho sử dụng công nghiệp trong khi những cái khác thì cho các công việc gia đình. Cross-embodiment không chỉ là một điều mới mẻ trong nghiên cứu, mà là một tính năng thiết yếu cho một bộ não robot toàn cầu.
Tôi đã nói chuyện với hàng chục lãnh đạo C-suite từ các công ty robot khác nhau, cả cũ và mới. Một số bán toàn bộ cơ thể. Một số bán các bộ phận cơ thể như tay khéo léo. Nhiều người khác bán các công cụ để sản xuất cơ thể mới, tạo ra các mô phỏng, hoặc thu thập khối lượng dữ liệu khổng lồ. Không gian ý tưởng kinh doanh hoang dã như chính nghiên cứu. Đây là một cuộc đua vàng mới, mà chúng ta chưa thấy kể từ làn sóng ChatGPT năm 2022.
Thời điểm tốt nhất để tham gia là khi sự đồng thuận đạt đỉnh. Chúng ta vẫn đang ở giai đoạn đầu của một đường cong mất mát - có những dấu hiệu mạnh mẽ của sự sống, nhưng còn rất xa mới đạt được sự hội tụ. Mỗi bước gradient đưa chúng ta vào vùng chưa biết. Nhưng một điều tôi biết chắc chắn - không có AGI mà không chạm vào, cảm nhận, và được hiện thân trong thế giới lộn xộn.
Về mặt cá nhân - điều hành một phòng thí nghiệm nghiên cứu đi kèm với một mức độ trách nhiệm hoàn toàn mới. Cung cấp cập nhật trực tiếp cho CEO của một công ty trị giá 4 nghìn tỷ đô la là, nói một cách nhẹ nhàng, vừa hồi hộp vừa tiêu tốn toàn bộ sự chú ý của tôi. Những ngày mà tôi có thể theo dõi và đi sâu vào mọi tin tức AI đã qua rồi.
Tôi sẽ cố gắng dành thời gian để chia sẻ nhiều hơn về hành trình của mình.

876,94K
Bài kiểm tra Turing Vật lý: ngôi nhà của bạn là một mớ hỗn độn sau một buổi hackathon vào Chủ nhật. Tối thứ Hai, bạn về nhà và thấy phòng khách sạch sẽ không tì vết cùng một bữa tối dưới ánh nến. Và bạn không thể biết liệu đó là do con người hay máy móc làm. Nghe có vẻ đơn giản, nhưng thực sự rất khó.
Đây là ngôi sao Bắc Đẩu tiếp theo của AI. Giấc mơ khiến tôi thức trắng lúc 12 giờ đêm trong phòng thí nghiệm. Tầm nhìn về nền tảng máy tính tiếp theo tự động hóa các phần tử vật chất thay vì các phần tử số.
Cảm ơn Sequoia đã mời tôi tham dự AI Ascent! Dưới đây là toàn bộ bài nói chuyện của tôi về các nguyên tắc cơ bản để giải quyết vấn đề robot đa năng: cách chúng tôi suy nghĩ về chiến lược dữ liệu và các quy luật mở rộng. Tôi đảm bảo rằng đây sẽ là 17 phút bạn không hối tiếc!
107,21K
Một ngày nào đó trong thập kỷ tới, chúng ta sẽ có robot trong mọi ngôi nhà, mọi bệnh viện và nhà máy, thực hiện mọi công việc nhàm chán và nguy hiểm với sự khéo léo siêu phàm. Ngày đó sẽ được gọi là “Thứ Năm”. Ngay cả Turing cũng không dám mơ về cuộc sống của chúng ta trong những giấc mơ hoang dã nhất của ông.

signüll21 thg 4, 2025
we crossed the turing test & no one gave a shit. no parades. no front page headlines. just… a casual shrug. like “oh yeah, the machines are smart enough to fool us now. anyway, what’s for lunch?”
that silence tells you everything about the pace we’re moving at.
back in my cs classes, the turing test was treated like the final boss. now every break through is another god damn tuesday.
101,94K
Olympics người máy vào năm 2030 sẽ là một sự kiện rất đáng chú ý.

Jim Fan5 thg 2, 2025
Chúng tôi đã RL hóa các robot hình người theo Cristiano Ronaldo, LeBron James và Kobe Bryant! Đây là các mạng nơ-ron chạy trên phần cứng thực tại phòng thí nghiệm GEAR của chúng tôi. Hầu hết các video demo robot bạn thấy trực tuyến đều tăng tốc video lên. Chúng tôi thực sự *làm chậm lại* để bạn có thể thưởng thức những chuyển động mượt mà.
Tôi rất vui mừng thông báo "ASAP", một mô hình "real2sim2real" mà thành thạo những chuyển động cực kỳ mượt mà và năng động cho việc điều khiển toàn bộ cơ thể robot hình người.
Chúng tôi huấn luyện trước robot trong mô phỏng trước, nhưng có một khoảng cách "sim2real" nổi tiếng: rất khó để các phương trình vật lý được thiết kế bằng tay khớp với động lực thực tế.
Cách khắc phục của chúng tôi rất đơn giản: chỉ cần triển khai một chính sách đã được huấn luyện trước trên phần cứng thực, thu thập dữ liệu và phát lại chuyển động trong mô phỏng. Việc phát lại sẽ rõ ràng có nhiều lỗi, nhưng điều đó cung cấp một tín hiệu phong phú để bù đắp cho sự khác biệt về vật lý. Sử dụng một mạng nơ-ron khác để học delta. Về cơ bản, chúng tôi "vá" một động cơ vật lý truyền thống, để robot có thể trải nghiệm gần như thế giới thực ở quy mô trên GPU.
Tương lai là mô phỏng lai: kết hợp sức mạnh của các động cơ mô phỏng cổ điển được tinh chỉnh qua nhiều thập kỷ và khả năng kỳ lạ của các mạng nơ-ron hiện đại để nắm bắt một thế giới hỗn độn.
45,82K
Chúng tôi đã RL hóa các robot hình người theo Cristiano Ronaldo, LeBron James và Kobe Bryant! Đây là các mạng nơ-ron chạy trên phần cứng thực tại phòng thí nghiệm GEAR của chúng tôi. Hầu hết các video demo robot bạn thấy trực tuyến đều tăng tốc video lên. Chúng tôi thực sự *làm chậm lại* để bạn có thể thưởng thức những chuyển động mượt mà.
Tôi rất vui mừng thông báo "ASAP", một mô hình "real2sim2real" mà thành thạo những chuyển động cực kỳ mượt mà và năng động cho việc điều khiển toàn bộ cơ thể robot hình người.
Chúng tôi huấn luyện trước robot trong mô phỏng trước, nhưng có một khoảng cách "sim2real" nổi tiếng: rất khó để các phương trình vật lý được thiết kế bằng tay khớp với động lực thực tế.
Cách khắc phục của chúng tôi rất đơn giản: chỉ cần triển khai một chính sách đã được huấn luyện trước trên phần cứng thực, thu thập dữ liệu và phát lại chuyển động trong mô phỏng. Việc phát lại sẽ rõ ràng có nhiều lỗi, nhưng điều đó cung cấp một tín hiệu phong phú để bù đắp cho sự khác biệt về vật lý. Sử dụng một mạng nơ-ron khác để học delta. Về cơ bản, chúng tôi "vá" một động cơ vật lý truyền thống, để robot có thể trải nghiệm gần như thế giới thực ở quy mô trên GPU.
Tương lai là mô phỏng lai: kết hợp sức mạnh của các động cơ mô phỏng cổ điển được tinh chỉnh qua nhiều thập kỷ và khả năng kỳ lạ của các mạng nơ-ron hiện đại để nắm bắt một thế giới hỗn độn.
543,13K
Việc một *bài báo thứ hai* được phát hành với hàng tấn bí mật về flywheel RL và lý luận *đa phương thức* kiểu o1 không nằm trong danh sách bingo của tôi hôm nay. Các bài báo của Kimi (một startup khác) và DeepSeek đã đáng kể hội tụ vào những phát hiện tương tự:
> Không cần tìm kiếm cây phức tạp như MCTS. Chỉ cần tuyến tính hóa dấu vết suy nghĩ và thực hiện dự đoán autoregressive cổ điển;
> Không cần các hàm giá trị yêu cầu một bản sao tốn kém khác của mô hình;
> Không cần mô hình thưởng dày đặc. Dựa vào sự thật, kết quả cuối cùng càng nhiều càng tốt.
Sự khác biệt:
> DeepSeek thực hiện phương pháp AlphaZero - hoàn toàn tự khởi động thông qua RL mà không cần sự can thiệp của con người, tức là "khởi động lạnh". Kimi thực hiện phương pháp AlphaGo-Master: SFT nhẹ để khởi động thông qua các dấu vết CoT được thiết kế theo prompt.
> Trọng số của DeepSeek có giấy phép MIT (lãnh đạo tư tưởng!); Kimi chưa có phát hành mô hình.
> Kimi thể hiện hiệu suất đa phương thức mạnh mẽ (!) trên các tiêu chuẩn như MathVista, yêu cầu hiểu biết về hình học, bài kiểm tra IQ, v.v.
> Bài báo của Kimi có rất nhiều chi tiết hơn về thiết kế hệ thống: cơ sở hạ tầng RL, cụm hybrid, sandbox mã, chiến lược song song; và chi tiết học tập: ngữ cảnh dài, nén CoT, chương trình học, chiến lược lấy mẫu, tạo trường hợp kiểm tra, v.v.
Đọc vui vẻ trong một ngày lễ!

300,43K
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất