Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Toată lumea e în panică din cauza programării vibraționale. În spiritul sărbătorilor, permiteți-mi să împărtășesc anxietatea mea legată de vestul sălbatic al roboticii. 3 lecții pe care le-am învățat în 2025.
1. Hardware-ul este înaintea software-ului, dar fiabilitatea hardware-ului limitează sever viteza de iterație software.
Am văzut arte inginerești excepționale precum Optimus, e-Atlas, Figure, Neo, G1 etc. Cea mai bună inteligență artificială a noastră nu a stoars toată puterea acestor hardware de frontieră. Corpul este mai capabil decât poate comanda creierul. Totuși, supravegherea acestor roboți necesită o întreagă echipă de operațiuni. Spre deosebire de oameni, roboții nu se vindecă de vânătăi. Supraîncălzirea, motoarele stricate, problemele bizare de firmware ne bântuie zilnic. Greșelile sunt ireversibile și neiertătoare.
Răbdarea mea a fost singurul lucru care a crescut.
2. Benchmarking-ul este încă un dezastru epic în robotică.
LLM-ii obișnuiți credeau că MMLU și SWE-Bench sunt bun simț. Așteptați 🍺 pentru robotică. Nimeni nu este de acord asupra a nimic: platforma hardware, definirea sarcinilor, rubricile de evaluare, simulatorul sau configurațiile din lumea reală. Toată lumea este SOTA, prin definiție, pe reperul pe care îl definește în mers pentru fiecare anunț de știri. Toată lumea alege cel mai frumos demo din 100 de încercări.
Trebuie să facem mai bine ca domeniu în 2026 și să încetăm să tratăm reproducibilitatea și disciplina științifică ca pe cetățeni de rang secund.
3. VLA bazat pe VLM pare greșit.
VLA înseamnă modelul "viziune-limbaj-acțiune" și a fost abordarea dominantă pentru creierele roboților. Rețeta este simplă: ia un punct de control VLM preantrenat și adaugă un modul de acțiune deasupra. Dar dacă te gândești bine, VLM-urile sunt hiper-optimizate pentru a depăși benchmark-uri de urcare pe dealuri, cum ar fi răspunsul vizual la întrebări. Aceasta implică două probleme: (1) majoritatea parametrilor din VLM-uri sunt pentru limbaj și cunoaștere, nu pentru fizică; (2) encoderele vizuale sunt reglate activ pentru a *elimina* detalii de nivel scăzut, deoarece întrebările și răspunsurile necesită doar o înțelegere la nivel înalt. Dar detaliile minuscule contează mult pentru dexteritate.
Nu există niciun motiv pentru ca performanța VLA să se scaleze așa cum se scalează parametrii VLM. Pre-antrenamentul este nealiniat. Modelul lumii video pare a fi un obiectiv mult mai bun de pre-antrenament pentru politica roboților. Pariez mare pe asta.

Limită superioară
Clasament
Favorite
