Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Alla tävlar om att bygga AI som kontrollerar robotleder och muskler. Nästan ingen ställer en annan fråga: vad händer när man ger en AI-agent tillgång till en robot på samma sätt som den använder en webbläsare eller en kodredigerare, som ett verktyg?
Det är två väldigt olika arkitekturer. Här är varför båda är viktiga:
2/ VLA och VLM gör otroliga framsteg inom lågnivårobotkontroll. Syn in, motoriska kommandon ut. Från början till ände.
Men det finns ett annat lager som får mindre uppmärksamhet.
Det är "uppgiftsorkestrering".
Inte "flytta led 3 till 45 grader" utan "gå och kolla om paketet har kommit fram till ytterdörren och låt mig veta vad du ser". (Tänkande på hög nivå)
Planering. Bakgrund. Minne. Flerstegsresonemang. Att bestämma vilka funktioner som ska användas och i vilken ordning.
3/ Tänk på hur människor fungerar.
Din lillhjärna hanterar balans och motorisk koordination. Du tänker inte på det.
Din prefrontala cortex sköter planeringen, alltså "Jag måste hämta mina nycklar, sedan låsa dörren, men först kontrollera om spisen är avstängd".
VLA-vågen bygger "potentiellt" bättre lillhjärna. Men en robot behöver också något som kan planera, minnas, ställa frågor och förklara vad den gör.
Detta är inga konkurrerande metoder. De är olika lager av samma stack.
4/ Vi har experimenterat med att koppla LLM-agenter till riktiga ROS2-robotar. Inte att kontrollera leder, utan snarare ge agenten verktyg för att publicera ämnen, ringa tjänster, läsa sensorer.
Det som överraskade oss var det emergenta beteendet.
Agenten kollar kameran innan han navigerar. Övervakar batteriet mitt i uppgiften och justerar. Frågar "det finns två föremål nära soffan ... vilken?" när instruktionen är tvetydig.
Ingen programmerade något av det. Det faller naturligt ur resonemanget.
5/ Här är något vi inte förväntade oss:
ROS2:s typsystem visar sig vara av misstag LLM-läsbart.
När agenten ser "/cmd_vel" (geometry_msgs/msg/Twist) eller "/navigate_to_pose" (NavigateToPose) vet den redan vad de betyder. Ingen manifest. Ingen kapabilitetsfil.
Du ger bara robotens levande ämnesdiagram och den räknar ut vad roboten kan göra.
Hela ROS2-ekosystemet blir ett verktygsbibliotek som agenten kan bläddra i.
976
Topp
Rankning
Favoriter
