Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Semua orang panik tentang pengkodean getaran. Dalam semangat liburan, izinkan saya untuk berbagi kecemasan saya di barat liar robotika. 3 pelajaran yang saya pelajari di tahun 2025.
1. Perangkat keras berada di depan perangkat lunak, tetapi keandalan perangkat keras sangat membatasi kecepatan iterasi perangkat lunak.
Kami telah melihat seni teknik yang luar biasa seperti Optimus, e-Atlas, Figure, Neo, G1, dll. AI terbaik kami belum memeras semua jus dari perangkat keras perbatasan ini. Tubuh lebih mampu daripada apa yang bisa diperintahkan oleh otak. Namun mengasuh robot-robot ini membutuhkan seluruh tim operasi. Tidak seperti manusia, robot tidak sembuh dari memar. Panas berlebih, motor rusak, masalah firmware aneh menghantui kita setiap hari. Kesalahan tidak dapat diubah dan tidak dapat dimaafkan.
Kesabaran saya adalah satu-satunya hal yang berskala.
2. Benchmarking masih merupakan bencana epik dalam robotika.
Norma LLM berpikir MMLU & SWE-Bench adalah akal sehat. Tahan Anda 🍺 untuk robotika. Tidak ada yang menyetujui apa pun: platform perangkat keras, definisi tugas, rubrik penilaian, simulator, atau pengaturan dunia nyata. Setiap orang adalah SOTA, menurut definisi, pada tolok ukur yang mereka tentukan dengan cepat untuk setiap pengumuman berita. Semua orang memilih demo yang paling bagus dari 100 percobaan.
Kita harus melakukan yang lebih baik sebagai bidang pada tahun 2026 dan berhenti memperlakukan reproduktifitas dan disiplin ilmiah sebagai warga negara kelas dua.
3. VLA berbasis VLM terasa salah.
VLA adalah singkatan dari model "visi-bahasa-tindakan" dan telah menjadi pendekatan dominan untuk otak robot. Resepnya sederhana: ambil pos pemeriksaan VLM yang telah dilatih sebelumnya dan cangkokkan modul tindakan di atasnya. Tetapi jika Anda memikirkannya, VLM sangat dioptimalkan untuk tolok ukur mendaki bukit seperti jawaban pertanyaan visual. Ini menyiratkan dua masalah: (1) sebagian besar parameter dalam VLM adalah untuk bahasa & pengetahuan, bukan untuk fisika; (2) encoder visual secara aktif disetel untuk *membuang* detail tingkat rendah, karena Tanya Jawab hanya memerlukan pemahaman tingkat tinggi. Tetapi detail kecil sangat penting untuk ketangkasan.
Tidak ada alasan untuk performa VLA untuk menskalakan saat parameter VLM diskalakan. Prapelatihan tidak sejajar. Model dunia video tampaknya menjadi tujuan prapelatihan yang jauh lebih baik untuk kebijakan robot. Saya bertaruh besar untuk itu.

Teratas
Peringkat
Favorit
