Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

480EB0
Heute sind wir mit @rdn_nikita, Mitbegründer und CEO von @FlexionRobotics, zusammen, um über die Kluft zwischen den aktuellen robotischen Fähigkeiten und dem, was erforderlich ist, um vollständig autonome Roboter in der realen Welt einzusetzen, zu diskutieren. Nikita erklärt, wie verstärkendes Lernen und Simulationen den schnellen Fortschritt in der Robotermobilität vorangetrieben haben – und warum die Mobilität noch lange nicht "gelöst" ist. Wir tauchen in die sim2real-Kluft ein und wie das Hinzufügen visueller Eingaben Rauschen einführt und den sim-to-real-Transfer erheblich kompliziert. Wir erkunden auch die Debatte zwischen End-to-End-Modellen und modularen Ansätzen und warum die Trennung von Mobilität, Planung und Semantik heute einen pragmatischen Ansatz darstellt. Nikita führt auch das Konzept "real-to-sim" ein, das reale Daten verwendet, um Simulationsparameter für ein höheres Maß an Treue im Training zu verfeinern, diskutiert, wie verstärkendes Lernen, Imitationslernen und Teleoperationsdaten kombiniert werden, um robuste Richtlinien für sowohl vierbeinige als auch humanoide Roboter zu trainieren, und stellt Flexions hierarchischen Ansatz vor, der vortrainierte Vision-Language-Modelle (VLMs) für die hochrangige Aufgabenorchestrierung mit Vision-Language-Action (VLA)-Modellen und niedergradigen Ganzkörper-Trackern nutzt. Schließlich teilt Nikita die Hintergründe der humanoiden Roboter-Demos, seine Meinung zu verstärkendem Lernen in Simulationen im Vergleich zur realen Welt, die Nuancen der Belohnungseinstellung und bietet praktische Ratschläge für Forscher und Praktiker, die heute mit Robotik beginnen möchten.
🗒️ Für die vollständige Liste der Ressourcen für diese Episode besuchen Sie die Seite mit den Shownotes:
📖 KAPITEL
===============================
00:00 - Einführung
04:07 - Ist die Robotermobilität gelöst?
06:04 - Sim-to-real-Kluft
08:58 - Hinzufügen von Semantik zu Richtlinien
09:42 - Modulare vs. End-to-End-Architekturen
10:29 - Planungsmodell
12:21 - Anpassung von RL-Techniken von Vierbeinern zu Humanoiden
15:39 - Hinter den Roboterdemos
18:09 - Humanoide Roboter in Wohnumgebungen
22:03 - Trainingsansatz
23:56 - VLA-Modelle
27:59 - Schließen der sim-to-real-Kluft
32:55 - Aufgabenorchestrierung mit VLMs
36:38 - Werkzeugnutzung
38:10 - Modellhierarchie
43:37 - Simulator versus Simulationsumgebung
44:57 - Kombination von Imitationslernen und verstärkendem Lernen
46:42 - RL in der realen Welt versus RL in Simulationen
52:58 - Belohnungseinstellung und Wertfunktionen in der Robotik
56:38 - Vorhersagen
1:00:10 - Humanoide, Vierbeiner und Räderplattformen
1:02:45 - Ratschläge, empfohlene Roboter-Kits und Community pla
25
Heute sind wir mit @oliver_wang2, Principal Scientist bei @GoogleDeepMind und technischer Leiter für Gemini 2.5 Flash Image – besser bekannt unter dem Codenamen „Nano Banana“ – verbunden. Wir tauchen ein in die Entwicklung und die Fähigkeiten dieses neu veröffentlichten Frontier Vision-Language-Modells, beginnend mit dem breiteren Wandel von spezialisierten Bildgeneratoren zu allgemeinen multimodalen Agenten, die sowohl visuelle als auch textuelle Daten für eine Vielzahl von Aufgaben nutzen können. Oliver erklärt, wie Nano Banana Bilder generieren und iterativ bearbeiten kann, während die Konsistenz gewahrt bleibt, und wie die Integration mit dem Weltwissen von Gemini kreative und praktische Anwendungsfälle erweitert. Wir diskutieren die Spannung zwischen Ästhetik und Genauigkeit, die relative Reife von Bildmodellen im Vergleich zu textbasierten LLMs und das Skalieren als Treiber des Fortschritts. Oliver teilt auch überraschende emergente Verhaltensweisen, die Herausforderungen bei der Bewertung von Vision-Language-Modellen und die Risiken des Trainings mit KI-generierten Daten. Schließlich blicken wir auf interaktive Weltmodelle und VLMs, die eines Tages „denken“ und „schließen“ könnten in Bildern.
Für die vollständige Liste der Ressourcen für diese Episode besuchen Sie die Seite mit den Shownotes:
📖 KAPITEL
===============================
00:00 - Einführung
4:39 - Nano Banana
5:35 - Nano Banana vs. Imagen und die Entwicklung der Bildgenerierungsmodelle
7:01 - Integration von Nano Banana in Gemini
9:52 - Nano Banana – ein allgemeines Modell
13:42 - Modellkonsistenz und Bearbeitungsfähigkeiten
15:41 - Datenqualität und Modellarchitektur
18:13 - Anwendungsfälle
24:10 - One-Shot-Modelle vs. node-basierte Schnittstellen
28:33 - Feinabstimmung
30:32 - Spannende Trends in der Bildgenerierung und VLMs
32:40 - Überwindung der Herausforderungen der Modellqualität
34:36 - Herausforderungen bei der Modellevaluation
36:32 - Vor- und Nachteile von Nano Banana
38:58 - Prompt-Umschreibung
40:36 - Veröffentlichungen
41:52 - Zugänglichkeit der Forschung
46:45 - Überprüfbare Bereiche
49:49 - Spannung zwischen Genauigkeit und Ästhetik
52:50 - Enger Datenverteilung in der Bildgenerierung
55:15 - KI-generierte Bilder für Trainingsdaten
57:56 - Modellgröße vs. Datenkuratierung
58:55 - Reife von Text- vs. Bilddomänen
25
Top
Ranking
Favoriten