Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mọi người đang hoảng loạn về việc lập trình vibe. Trong tinh thần ngày lễ, hãy để tôi chia sẻ nỗi lo âu của mình về miền Tây hoang dã của robotics. 3 bài học tôi đã học được vào năm 2025.
1. Phần cứng đi trước phần mềm, nhưng độ tin cậy của phần cứng hạn chế nghiêm trọng tốc độ lặp lại của phần mềm.
Chúng ta đã thấy những nghệ thuật kỹ thuật tinh xảo như Optimus, e-Atlas, Figure, Neo, G1, v.v. AI tốt nhất của chúng ta vẫn chưa khai thác hết tiềm năng của những phần cứng tiên phong này. Cơ thể có khả năng hơn những gì bộ não có thể chỉ huy. Tuy nhiên, việc chăm sóc những con robot này đòi hỏi một đội ngũ vận hành hoàn chỉnh. Khác với con người, robot không tự hồi phục sau những vết bầm. Quá nhiệt, động cơ hỏng, các vấn đề firmware kỳ lạ ám ảnh chúng ta hàng ngày. Những sai lầm là không thể đảo ngược và không khoan nhượng.
Sự kiên nhẫn của tôi là điều duy nhất có thể mở rộng.
2. Việc đánh giá vẫn là một thảm họa lớn trong robotics.
Những người bình thường về LLM nghĩ rằng MMLU & SWE-Bench là điều hiển nhiên. Hãy giữ 🍺 cho robotics. Không ai đồng ý về bất cứ điều gì: nền tảng phần cứng, định nghĩa nhiệm vụ, tiêu chí chấm điểm, mô phỏng, hay thiết lập thế giới thực. Mọi người đều là SOTA, theo định nghĩa, trên bảng điểm mà họ định nghĩa ngay tại chỗ cho mỗi thông báo tin tức. Mọi người đều chọn lọc những bản demo đẹp nhất trong số 100 lần thử.
Chúng ta cần làm tốt hơn trong lĩnh vực này vào năm 2026 và ngừng coi khả năng tái sản xuất và kỷ luật khoa học như những công dân hạng hai.
3. VLM-based VLA cảm thấy không đúng.
VLA là viết tắt của "mô hình thị giác-ngôn ngữ-hành động" và đã trở thành phương pháp chiếm ưu thế cho bộ não robot. Công thức rất đơn giản: lấy một checkpoint VLM đã được huấn luyện trước và ghép một mô-đun hành động lên trên. Nhưng nếu bạn nghĩ về nó, VLMs được tối ưu hóa cực kỳ để leo lên các bảng điểm như trả lời câu hỏi hình ảnh. Điều này gợi ý hai vấn đề: (1) hầu hết các tham số trong VLMs là cho ngôn ngữ & kiến thức, không phải cho vật lý; (2) các bộ mã hóa hình ảnh được điều chỉnh để *loại bỏ* các chi tiết cấp thấp, vì Q&A chỉ yêu cầu hiểu biết cấp cao. Nhưng những chi tiết nhỏ lại rất quan trọng cho sự khéo léo.
Không có lý do gì để hiệu suất của VLA tăng lên khi các tham số VLM tăng lên. Việc huấn luyện trước là không phù hợp. Mô hình thế giới video dường như là một mục tiêu huấn luyện trước tốt hơn nhiều cho chính sách robot. Tôi đang đặt cược lớn vào điều đó.

Hàng đầu
Thứ hạng
Yêu thích
