DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

1/ Jeder rennt darum, KI zu entwickeln, die Robotergelenke und -muskeln steuert. Fast niemand stellt eine andere Frage: Was passiert, wenn man einem KI-Agenten Zugang zu einem Roboter gewährt, so wie er auf einen Webbrowser oder einen Code-Editor zugreift, als Werkzeug? Das sind zwei sehr unterschiedliche Architekturen. Hier ist der Grund, warum beide wichtig sind:

2/ VLAs und VLMs machen unglaubliche Fortschritte bei der Steuerung von Robotern auf niedriger Ebene. Vision rein, Motorbefehle raus. End-to-End. Aber es gibt eine andere Ebene, die weniger Aufmerksamkeit erhält. Es ist die "Aufgabenorchestrierung". Nicht "Bewege Gelenk 3 auf 45 Grad", sondern "Überprüfe, ob das Paket an der Haustür angekommen ist, und lass mich wissen, was du siehst". (Hohes Denken) Planung. Kontext. Gedächtnis. Mehrstufiges Denken. Entscheiden, welche Fähigkeiten genutzt werden sollen und in welcher Reihenfolge.

3/ Denken Sie darüber nach, wie Menschen funktionieren. Ihr Kleinhirn steuert das Gleichgewicht und die motorische Koordination. Sie denken nicht darüber nach. Ihr präfrontaler Kortex kümmert sich um die Planung, d.h. „Ich muss meine Schlüssel holen, dann die Tür abschließen, aber zuerst überprüfen, ob der Herd aus ist“. Die VLA-Welle baut „potenziell“ bessere Kleinhirne auf. Aber ein Roboter braucht auch etwas, das planen, sich erinnern, Fragen stellen und erklären kann, was es tut. Das sind keine konkurrierenden Ansätze. Es sind verschiedene Schichten des gleichen Stapels.

4/ Wir haben experimentiert, LLM-Agenten mit echten ROS2-Robotern zu verbinden. Nicht die Gelenke zu steuern, sondern dem Agenten Werkzeuge zu geben, um Themen zu veröffentlichen, Dienste aufzurufen und Sensoren auszulesen. Was uns überrascht hat, war das emergente Verhalten. Der Agent überprüft die Kamera, bevor er navigiert. Überwacht den Akku während der Aufgabe und passt sich an. Fragt: „Es gibt zwei Objekte in der Nähe des Sofas ... welches?“ wenn die Anweisung mehrdeutig ist. Niemand hat das programmiert. Es ergibt sich natürlich aus dem Denken.

5/ Hier ist etwas, das wir nicht erwartet haben: Das Typsystem von ROS2 stellt sich als versehentlich LLM-lesbar heraus. Wenn der Agent „/cmd_vel“ (geometry_msgs/msg/Twist) oder „/navigate_to_pose“ (NavigateToPose) sieht, weiß er bereits, was das bedeutet. Kein Manifest. Keine Fähigkeitsdatei. Du gibst ihm einfach das aktuelle Topic-Graph des Roboters und er findet heraus, was der Roboter tun kann. Das gesamte ROS2-Ökosystem wird zu einer Werkzeugbibliothek, die der Agent durchsuchen kann.

954

Top

Ranking

Favoriten