Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La robotica continua a sbattere contro lo stesso muro.
Il RL per compiti singoli funziona, ma... non scala a centinaia di compiti o nuove incarnazioni.
Questo nuovo articolo sembra un vero passo avanti per risolvere questo problema.
Il team introduce MMBench, un benchmark con 200 compiti in molti domini e robot, e Newt, un modello di mondo condizionato dal linguaggio addestrato online su tutti e 200 i compiti contemporaneamente.
L'idea semplice dietro Newt:
Il modello impara dalle dimostrazioni per ottenere i giusti priors
Si allena su molti compiti attraverso interazioni online
Utilizza il linguaggio per ancorare l'obiettivo
Si adatta rapidamente quando appare un nuovo compito
Ciò che mi ha colpito:
✅ Un modello addestrato su 200 compiti contemporaneamente
✅ Controllo condizionato dal linguaggio sia per stati che per RGB
✅ Maggiore efficienza dei dati rispetto a forti baseline
✅ Forte controllo in open loop
✅ Rapida adattabilità a nuovi compiti e incarnazioni
✅ Rilascio completo di 200 checkpoint, 4000 dimostrazioni, codice e benchmark
Questo è un buon impulso verso un controllo generale invece di un modello per ogni compito.
Se vuoi l'articolo completo:
Pagina del progetto:
...
Principali
Ranking
Preferiti

