Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wszyscy panikują z powodu kodowania wibracji. W świątecznym nastroju pozwólcie, że podzielę się moim niepokojem na temat dzikiego zachodu robotyki. 3 lekcje, które nauczyłem się w 2025 roku.
1. Sprzęt wyprzedza oprogramowanie, ale niezawodność sprzętu poważnie ogranicza szybkość iteracji oprogramowania.
Widzieliśmy wspaniałe osiągnięcia inżynieryjne, takie jak Optimus, e-Atlas, Figure, Neo, G1 itd. Nasza najlepsza AI nie wycisnęła jeszcze całego soku z tego nowatorskiego sprzętu. Ciało jest bardziej zdolne niż to, co mózg może nakazać. Jednak opieka nad tymi robotami wymaga całego zespołu operacyjnego. W przeciwieństwie do ludzi, roboty nie leczą się z siniaków. Przegrzewanie, uszkodzone silniki, dziwne problemy z oprogramowaniem dręczą nas na co dzień. Błędy są nieodwracalne i bezlitosne.
Moja cierpliwość była jedyną rzeczą, która się zwiększała.
2. Benchmarking w robotyce to wciąż epicka katastrofa.
Normiki LLM myślały, że MMLU i SWE-Bench to zdrowy rozsądek. Wstrzymajcie swoje 🍺 na robotykę. Nikt się w niczym nie zgadza: platforma sprzętowa, definicja zadania, kryteria oceny, symulator czy rzeczywiste ustawienia. Wszyscy są SOTA, z definicji, w benchmarku, który definiują na bieżąco przy każdej zapowiedzi. Wszyscy wybierają najładniejszą demonstrację spośród 100 prób.
Musimy się poprawić jako dziedzina w 2026 roku i przestać traktować reprodukowalność i dyscyplinę naukową jako obywateli drugiej kategorii.
3. VLM oparte na VLA wydaje się błędne.
VLA oznacza model "wizja-język-działanie" i jest dominującym podejściem dla mózgów robotów. Przepis jest prosty: weź punkt kontrolny VLM po wstępnym szkoleniu i graftuj moduł działania na górze. Ale jeśli się nad tym zastanowisz, VLM są hiperoptymalizowane do wspinania się po benchmarkach, takich jak odpowiadanie na pytania wizualne. To implikuje dwa problemy: (1) większość parametrów w VLM dotyczy języka i wiedzy, a nie fizyki; (2) enkodery wizualne są aktywnie dostosowywane do *odrzucania* szczegółów niskiego poziomu, ponieważ Q&A wymaga tylko zrozumienia na wysokim poziomie. Ale drobne szczegóły mają ogromne znaczenie dla zręczności.
Nie ma powodu, dla którego wydajność VLA miałaby rosnąć w miarę wzrostu parametrów VLM. Wstępne szkolenie jest źle dopasowane. Model świata wideo wydaje się być znacznie lepszym celem wstępnego szkolenia dla polityki robotów. Stawiam na to duże pieniądze.

Najlepsze
Ranking
Ulubione
