DApp Store | Web3 Hub for hendelser og spill

Populære emner

Da jeg jobbet i Google, var jeg heldig som fikk samarbeide med noen av de flinkeste maskinlæringsingeniørene (ML). De jobbet med funksjonsteknikk. Ved å velge faktorene for å veilede ML-modellen, kan fremskrittene deres generere titalls til hundrevis av millioner ekstra inntekter. Se for deg et Excel-regneark med hundrevis av kolonner med data. Legg til to kolonner, multipliser to, del på en annen, og trekk fra en fjerde. Hver av disse er en funksjon. ML-modeller brukte funksjoner for å forutsi hvilken annonse som var best å vise. Det startet som et håndverk, som gjenspeiler epokens vibber. Over tid har vi mekanisert denne kunsten til en maskin kalt AutoML som massivt akselererer oppdagelsen av de riktige funksjonene. I dag er forsterkende læring (RL) på samme sted som funksjonsteknikk for 15 år siden. Hva er RL? Det er en teknikk for å lære AI å oppnå mål. Tenk på en modig Roomba. Den presser seg inn i et skittent rom. Deretter må den lage en rengjøringsplan og utføre den. Å lage planen er trinn 1. For å fullføre planen, som enhver god arbeider, vil den belønne seg selv, ikke med en fotballpause, men med noen poeng. Belønningsfunksjonen kan være: +0,1 for hver nye kvadratmeter som rengjøres, -5 for å støte på en vegg og +100 for å returnere til kaien med en full søppelkasse. Den utrettelige støvsugerens oppførsel er formet av denne enkle aritmetikken. (NB: Jeg forenkler ganske mye her.) I dag kan AI lage planen, men er ennå ikke i stand til å utvikle belønningsfunksjonene. Folk gjør dette, omtrent som vi utviklet funksjoner for 15 år siden. Vil vi se en AutoRL? Ikke på en stund. Teknikkene for RL er fortsatt oppe til debatt. Andrej Karpathy fremhevet debatten i en nylig podcast. Denne nåværende bølgen av AI-forbedring kan avhenge av RL-suksess. I dag er det veldig mye et håndverk. Potensialet til å automatisere det – til en viss grad eller fullt ut – vil forandre måten vi bygger agentsystemer på.

Topp

Rangering

Favoritter