Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kaikki ovat paniikissa vibe-koodauksesta. Joulun hengessä sallikaa minun jakaa ahdistukseni robotiikan villistä lännestä. 3 oppituntia, jotka opin vuonna 2025.
1. Laitteisto on ohjelmistoja edellä, mutta laitteiston luotettavuus rajoittaa merkittävästi ohjelmiston iterointinopeutta.
Olemme nähneet hienoja insinööritaiteita kuten Optimus, e-Atlas, Figure, Neo, G1 jne. Paras tekoälymme ei ole puristanut kaikkea tehoa näistä rajaseudun laitteista. Keho on kykenevämpi kuin mitä aivot pystyvät määräämään. Silti näiden robottien vahtiminen vaatii kokonaisen operaatiotiimin. Toisin kuin ihmiset, robotit eivät parane mustelmista. Ylikuumeneminen, rikkinäiset moottorit, oudot laiteohjelmistoongelmat vainoavat meitä päivittäin. Virheet ovat peruuttamattomia ja armottomia.
Kärsivällisyyteni oli ainoa asia, joka kasvoi.
2. Benchmarking on edelleen valtava katastrofi robotiikalla.
LLM:n tavalliset ihmiset pitivät MMLU:ta ja SWE-Benchiä maalaisjärkenä. Odota 🍺 robotiikkaa. Kukaan ei ole samaa mieltä mistään: laitteistoalustasta, tehtävien määrittelystä, pisteytyksen arviointikriteereistä, simulaattorista tai oikean maailman asetuksista. Jokainen on määritelmän mukaan SOTA, sillä mittapuulla, jonka he määrittelevät lennossa jokaiselle uutisilmoitukselle. Kaikki valitsevat sadasta yrityksestä parhaimman demon.
Meidän täytyy parantaa alaa vuonna 2026 ja lopettaa toistettavuuden ja tieteenkurin kohteleminen toisen luokan kansalaisina.
3. VLM-pohjainen VLA tuntuu väärältä.
VLA tarkoittaa "näkö-kieli-toiminta" -mallia ja on ollut hallitseva lähestymistapa robottiaivoissa. Resepti on yksinkertainen: ota esikoulutettu VLM-tarkistuspiste ja liitä sen päälle toimintamoduuli. Mutta jos miettii, VLM:t on optimoitu mäkikilpailuihin, kuten visuaaliseen kysymykseen vastaamiseen. Tämä johtaa kahteen ongelmaan: (1) suurin osa VLM:ien parametreista koskee kieltä ja tietoa, ei fysiikkaa; (2) visuaaliset kooderit on aktiivisesti viritetty *hylkäämään* matalan tason yksityiskohdat, koska kysymys-vastaus vaatii vain korkean tason ymmärrystä. Mutta pienet yksityiskohdat ovat tärkeitä ketteryydelle.
VLA:n suorituskyvyn skaalautumiselle ei ole mitään syytä skaalata VLM-parametrien skaaloituessa. Esikoulutus on väärässä linjassa. Videomaailman malli vaikuttaa paljon paremmalta esikoulutustavoitteelta robottipolitiikalle. Panostan siihen paljon.

Johtavat
Rankkaus
Suosikit
