1/ Iedereen is bezig met het bouwen van AI die robotgewrichten en spieren bestuurt. Bijna niemand stelt een andere vraag: wat gebeurt er als je een AI-agent toegang geeft tot een robot op dezelfde manier als dat het toegang heeft tot een webbrowser of een code-editor, als een hulpmiddel? Dat zijn twee heel verschillende architecturen. Dit is waarom beide belangrijk zijn:
2/ VLAs en VLMs maken ongelooflijke vooruitgang op het gebied van laag-niveau robotbesturing. Visie in, motorcommando's uit. Van begin tot eind. Maar er is een andere laag die minder aandacht krijgt. Het is "taakorkestratie". Niet "verplaats gewricht 3 naar 45 graden" maar "ga controleren of het pakket bij de voordeur is aangekomen en laat me weten wat je ziet". (Hogere denkwijze) Plannen. Context. Geheugen. Meervoudige redenatie. Beslissen welke mogelijkheden te gebruiken en in welke volgorde.
3/ Denk na over hoe mensen werken. Je cerebellum regelt balans en motorische coördinatie. Daar denk je niet over na. Je prefrontale cortex regelt planning, d.w.z. "Ik moet mijn sleutels pakken, dan de deur op slot doen, maar eerst controleren of het fornuis uit is". De VLA-golf bouwt "potentieel" betere cerebella. Maar een robot heeft ook iets nodig dat kan plannen, herinneren, vragen stellen en uitleggen wat het doet. Dit zijn geen concurrerende benaderingen. Het zijn verschillende lagen van dezelfde stapel.
4/ We hebben geëxperimenteerd met het verbinden van LLM-agenten met echte ROS2-robots. Niet het aansturen van gewrichten, maar het geven van de agent tools om onderwerpen te publiceren, diensten aan te roepen en sensoren te lezen. Wat ons verraste was het opkomende gedrag. De agent controleert de camera voordat hij navigeert. Houdt de batterij in de gaten tijdens de taak en past zich aan. Vraagt "er zijn twee objecten bij de bank ... welke?" wanneer de instructie ambigu is. Niemand heeft dat geprogrammeerd. Het komt natuurlijk voort uit de redenering.
5/ Hier is iets wat we niet verwachtten: Het type systeem van ROS2 blijkt per ongeluk LLM-leesbaar te zijn. Wanneer de agent “/cmd_vel” (geometry_msgs/msg/Twist) of “/navigate_to_pose” (NavigateToPose) ziet, weet hij al wat die betekenen. Geen manifest. Geen capaciteitsbestand. Je geeft het gewoon de live topicgrafiek van de robot en het ontdekt wat de robot kan doen. Het hele ROS2-ecosysteem wordt een gereedschapsbibliotheek die de agent kan doorbladeren.
973