Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

480EB0
Dziś dołączają do nas @rdn_nikita, współzałożyciel i dyrektor generalny @FlexionRobotics, aby omówić różnicę między obecnymi możliwościami robotów a tym, co jest wymagane do wdrożenia w pełni autonomicznych robotów w rzeczywistym świecie. Nikita wyjaśnia, jak uczenie przez wzmocnienie i symulacja przyczyniły się do szybkiego postępu w lokomocji robotów — i dlaczego lokomocja wciąż jest daleka od "rozwiązania". Zgłębiamy temat różnicy sim2real oraz to, jak dodanie wizualnych danych wejściowych wprowadza szum i znacznie komplikuje transfer z symulacji do rzeczywistości. Badamy również debatę między modelami end-to-end a podejściami modułowymi oraz dlaczego oddzielanie lokomocji, planowania i semantyki pozostaje pragmatycznym podejściem dzisiaj. Nikita wprowadza również pojęcie "real-to-sim", które wykorzystuje dane z rzeczywistego świata do udoskonalenia parametrów symulacji w celu uzyskania wyższej wierności treningu, omawia, jak uczenie przez wzmocnienie, uczenie przez naśladowanie i dane z teleoperacji są łączone w celu trenowania solidnych polityk zarówno dla robotów czworonożnych, jak i humanoidalnych, oraz przedstawia hierarchiczne podejście Flexion, które wykorzystuje wstępnie wytrenowane modele wizji-języka (VLM) do orkiestracji zadań na wysokim poziomie z modelami wizji-języka-akcji (VLA) oraz niskopoziomowymi trackerami całego ciała. Na koniec Nikita dzieli się kulisami pokazów robotów humanoidalnych, swoją opinią na temat uczenia przez wzmocnienie w symulacji w porównaniu do rzeczywistego świata, niuansami dostrajania nagród i oferuje praktyczne porady dla badaczy i praktyków, którzy chcą rozpocząć pracę w dziedzinie robotyki dzisiaj.
🗒️ Pełną listę zasobów do tego odcinka znajdziesz na stronie notatek z programu:
📖 ROZDZIAŁY
===============================
00:00 - Wprowadzenie
04:07 - Czy lokomocja robotów jest rozwiązana?
06:04 - Różnica sim-to-real
08:58 - Dodawanie semantyki do polityk
09:42 - Architektury modułowe vs end-to-end
10:29 - Model planera
12:21 - Dostosowywanie technik RL z czworonogów do humanoidów
15:39 - Kulisy pokazów robotów
18:09 - Roboty humanoidalne w domowych środowiskach
22:03 - Podejście do treningu
23:56 - Modele VLA
27:59 - Zamykanie różnicy sim-to-real
32:55 - Orkiestracja zadań z wykorzystaniem VLM
36:38 - Użycie narzędzi
38:10 - Hierarchia modeli
43:37 - Symulator a środowisko symulacyjne
44:57 - Łączenie uczenia przez naśladowanie i uczenia przez wzmocnienie
46:42 - RL w rzeczywistości a RL w symulacji
52:58 - Dostrajanie nagród i funkcje wartości w robotyce
56:38 - Prognozy
1:00:10 - Humanoidy, czworonogi i platformy kołowe
1:02:45 - Porady, polecane zestawy robotów i społeczność pla
30
Dziś dołącza do nas @oliver_wang2, główny naukowiec w @GoogleDeepMind i lider technologiczny projektu Gemini 2.5 Flash Image—lepiej znany pod kodową nazwą „Nano Banana”. Zgłębiamy rozwój i możliwości tego nowo wydanego modelu językowo-wizualnego na granicy, zaczynając od szerszej zmiany z wyspecjalizowanych generatorów obrazów na ogólne agenty multimodalne, które mogą wykorzystywać zarówno dane wizualne, jak i tekstowe do różnych zadań. Oliver wyjaśnia, jak Nano Banana może generować i iteracyjnie edytować obrazy, zachowując spójność, oraz jak jego integracja z wiedzą o świecie Gemini rozszerza kreatywne i praktyczne zastosowania. Dyskutujemy o napięciu między estetyką a dokładnością, względnej dojrzałości modeli obrazów w porównaniu do modeli LLM opartych na tekście oraz o skalowaniu jako napędzie postępu. Oliver dzieli się również zaskakującymi zachowaniami emergentnymi, wyzwaniami oceny modeli językowo-wizualnych oraz ryzykiem szkolenia na danych generowanych przez AI. Na koniec spoglądamy w przyszłość na interaktywne modele świata i VLM-y, które mogą pewnego dnia „myśleć” i „rozumować” w obrazach.
Pełną listę zasobów do tego odcinka znajdziesz na stronie notatek do programu:
📖 ROZDZIAŁY
===============================
00:00 - Wprowadzenie
4:39 - Nano banana
5:35 - Nano banana vs Imagen i trajektoria modeli generacji obrazów
7:01 - Integracja Nano banana w Gemini
9:52 - Nano banana— model ogólnego przeznaczenia
13:42 - Spójność modelu i możliwości edycji
15:41 - Jakość danych i architektura modelu
18:13 - Zastosowania
24:10 - Modele one-shot vs. interfejsy oparte na węzłach
28:33 - Fine-tuning
30:32 - Ekscytujące trendy w generacji obrazów i VLM-ach
32:40 - Pokonywanie wyzwań związanych z jakością modelu
34:36 - Wyzwania oceny modelu
36:32 - Zalety i wady Nano banana
38:58 - Przekształcanie promptów
40:36 - Prace naukowe
41:52 - Dostępność badań
46:45 - Weryfikowalne obszary
49:49 - Napięcie między dokładnością a estetyką
52:50 - Wąska dystrybucja danych w generacji obrazów
55:15 - Obrazy generowane przez AI jako dane do szkolenia
57:56 - Skala modelu a kuracja danych
58:55 - Dojrzałość tekstu w porównaniu do obszarów obrazów.
27
Najlepsze
Ranking
Ulubione