Alle sind verrückt nach Vibe-Coding. In der Urlaubsstimmung möchte ich meine Ängste über den Wilden Westen der Robotik teilen. 3 Lektionen, die ich 2025 gelernt habe. 1. Hardware ist der Software voraus, aber die Zuverlässigkeit der Hardware schränkt die Iterationsgeschwindigkeit der Software erheblich ein. Wir haben exquisite Ingenieurskunst gesehen wie Optimus, e-Atlas, Figure, Neo, G1 usw. Unsere beste KI hat nicht alles aus dieser Grenz-Hardware herausgeholt. Der Körper ist fähiger als das, was das Gehirn befehlen kann. Doch die Betreuung dieser Roboter erfordert ein ganzes Operationsteam. Im Gegensatz zu Menschen heilen Roboter nicht von Prellungen. Überhitzung, defekte Motoren, bizarre Firmware-Probleme verfolgen uns täglich. Fehler sind unwiderruflich und gnadenlos. Meine Geduld war das einzige, was sich vergrößerte. 2. Benchmarking ist immer noch eine epische Katastrophe in der Robotik. LLM-Normies dachten, MMLU & SWE-Bench seien gesunder Menschenverstand. Halte dein 🍺 für die Robotik zurück. Niemand ist sich über irgendetwas einig: Hardware-Plattform, Aufgabenbeschreibung, Bewertungsrichtlinien, Simulator oder reale Setups. Jeder ist definitionsgemäß SOTA, basierend auf dem Benchmark, den er spontan für jede Nachrichtenankündigung definiert. Jeder wählt das schönste Demo aus 100 Versuchen aus. Wir müssen als Fachgebiet 2026 besser werden und aufhören, Reproduzierbarkeit und wissenschaftliche Disziplin als Bürger zweiter Klasse zu behandeln. 3. VLM-basiertes VLA fühlt sich falsch an. VLA steht für "Vision-Language-Action"-Modell und ist der dominante Ansatz für Robotergehirne. Das Rezept ist einfach: Nimm einen vortrainierten VLM-Checkpoint und füge ein Aktionsmodul oben drauf. Aber wenn man darüber nachdenkt, sind VLMs hyper-optimiert, um Benchmarks wie visuelle Fragenbeantwortung zu erklimmen. Das impliziert zwei Probleme: (1) die meisten Parameter in VLMs sind für Sprache & Wissen, nicht für Physik; (2) visuelle Encoder sind aktiv darauf abgestimmt, niedrigstufige Details *zu verwerfen*, weil Q&A nur ein hohes Verständnis erfordert. Aber minutöse Details sind für Geschicklichkeit sehr wichtig. Es gibt keinen Grund, warum die Leistung von VLA mit der Skalierung der VLM-Parameter steigen sollte. Das Pretraining ist nicht ausgerichtet. Das Video-Weltmodell scheint ein viel besseres Pretraining-Ziel für die Roboterpolitik zu sein. Ich setze große Hoffnungen darauf.