La robotica continua a sbattere contro lo stesso muro. Il RL per compiti singoli funziona, ma... non scala a centinaia di compiti o nuove incarnazioni. Questo nuovo articolo sembra un vero passo avanti per risolvere questo problema. Il team introduce MMBench, un benchmark con 200 compiti in molti domini e robot, e Newt, un modello di mondo condizionato dal linguaggio addestrato online su tutti e 200 i compiti contemporaneamente. L'idea semplice dietro Newt: Il modello impara dalle dimostrazioni per ottenere i giusti priors Si allena su molti compiti attraverso interazioni online Utilizza il linguaggio per ancorare l'obiettivo Si adatta rapidamente quando appare un nuovo compito Ciò che mi ha colpito: ✅ Un modello addestrato su 200 compiti contemporaneamente ✅ Controllo condizionato dal linguaggio sia per stati che per RGB ✅ Maggiore efficienza dei dati rispetto a forti baseline ✅ Forte controllo in open loop ✅ Rapida adattabilità a nuovi compiti e incarnazioni ✅ Rilascio completo di 200 checkpoint, 4000 dimostrazioni, codice e benchmark Questo è un buon impulso verso un controllo generale invece di un modello per ogni compito. Se vuoi l'articolo completo: Pagina del progetto: ...