Wszyscy panikują z powodu kodowania wibracji. W świątecznym nastroju pozwólcie, że podzielę się moim niepokojem na temat dzikiego zachodu robotyki. 3 lekcje, które nauczyłem się w 2025 roku. 1. Sprzęt wyprzedza oprogramowanie, ale niezawodność sprzętu poważnie ogranicza szybkość iteracji oprogramowania. Widzieliśmy wspaniałe osiągnięcia inżynieryjne, takie jak Optimus, e-Atlas, Figure, Neo, G1 itd. Nasza najlepsza AI nie wycisnęła jeszcze całego soku z tego nowatorskiego sprzętu. Ciało jest bardziej zdolne niż to, co mózg może nakazać. Jednak opieka nad tymi robotami wymaga całego zespołu operacyjnego. W przeciwieństwie do ludzi, roboty nie leczą się z siniaków. Przegrzewanie, uszkodzone silniki, dziwne problemy z oprogramowaniem dręczą nas na co dzień. Błędy są nieodwracalne i bezlitosne. Moja cierpliwość była jedyną rzeczą, która się zwiększała. 2. Benchmarking w robotyce to wciąż epicka katastrofa. Normiki LLM myślały, że MMLU i SWE-Bench to zdrowy rozsądek. Wstrzymajcie swoje 🍺 na robotykę. Nikt się w niczym nie zgadza: platforma sprzętowa, definicja zadania, kryteria oceny, symulator czy rzeczywiste ustawienia. Wszyscy są SOTA, z definicji, w benchmarku, który definiują na bieżąco przy każdej zapowiedzi. Wszyscy wybierają najładniejszą demonstrację spośród 100 prób. Musimy się poprawić jako dziedzina w 2026 roku i przestać traktować reprodukowalność i dyscyplinę naukową jako obywateli drugiej kategorii. 3. VLM oparte na VLA wydaje się błędne. VLA oznacza model "wizja-język-działanie" i jest dominującym podejściem dla mózgów robotów. Przepis jest prosty: weź punkt kontrolny VLM po wstępnym szkoleniu i graftuj moduł działania na górze. Ale jeśli się nad tym zastanowisz, VLM są hiperoptymalizowane do wspinania się po benchmarkach, takich jak odpowiadanie na pytania wizualne. To implikuje dwa problemy: (1) większość parametrów w VLM dotyczy języka i wiedzy, a nie fizyki; (2) enkodery wizualne są aktywnie dostosowywane do *odrzucania* szczegółów niskiego poziomu, ponieważ Q&A wymaga tylko zrozumienia na wysokim poziomie. Ale drobne szczegóły mają ogromne znaczenie dla zręczności. Nie ma powodu, dla którego wydajność VLA miałaby rosnąć w miarę wzrostu parametrów VLM. Wstępne szkolenie jest źle dopasowane. Model świata wideo wydaje się być znacznie lepszym celem wstępnego szkolenia dla polityki robotów. Stawiam na to duże pieniądze.