Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Aaron Levie
administrerende direktør @box - slipp løs kraften i innholdet ditt med AI
Hastigheten på AI-fremgang gjør det så mange av problemene som ikke fungerte tidligere, endelig vil fungere nå. Men en betydelig del av kapasiteten til disse modellene blir underutnyttet som et resultat.
Jeg snakker jevnlig med bedriftskunder der et brukstilfelle de hadde i fjor som en toppmoderne modell ikke kunne løse, nå kan låses opp med de nyeste modellene.
Nøkkelen er at du må fortsette å gå tilbake til disse modellene og presse dem lenger og lenger. Som Andrej sier, "hvis du ikke gir det de vanskeligste problemene dine, går du sannsynligvis glipp av noe."

Andrej Karpathy9 timer siden
Jeg tror gratulerer igjen til OpenAI for matlaging med GPT-5 Pro. Dette er tredje gang jeg har slitt med noe komplekst/knudrete i en time av og på med CC, så går 5 Pro av i 10 minutter og kommer tilbake med kode som fungerer ut av esken. Jeg fikk CC til å lese 5 Pro-versjonen, og den skrev opp 2 avsnitt og beundret den (veldig sunn). Hvis du ikke gir det de vanskeligste problemene dine, går du sannsynligvis glipp av noe.
55,5K
«Hvis du ikke gir det de vanskeligste problemene dine, går du sannsynligvis glipp av noe.»
Dette er tilfellet for mye AI akkurat nå. AI har forbedret seg dramatisk det siste året, men de fleste har ikke økt kompleksiteten i arbeidet de gir dem.
Driv AI-en din lenger.

Andrej Karpathy9 timer siden
Jeg tror gratulerer igjen til OpenAI for matlaging med GPT-5 Pro. Dette er tredje gang jeg har slitt med noe komplekst/knudrete i en time av og på med CC, så går 5 Pro av i 10 minutter og kommer tilbake med kode som fungerer ut av esken. Jeg fikk CC til å lese 5 Pro-versjonen, og den skrev opp 2 avsnitt og beundret den (veldig sunn). Hvis du ikke gir det de vanskeligste problemene dine, går du sannsynligvis glipp av noe.
3,73K
Vi skraper knapt i overflaten på evals. En betydelig del av kunnskapsarbeiderens oppgaver fanges ikke opp i dagens mest populære benchmarks.
Selv om relevante funksjoner ofte kan ekstrapoleres fra eksisterende koding og matematikk, representerer disse ikke fullt ut kompleksiteten til virkelige oppgaver på mange felt som juridiske, finansielle tjenester, regnskap eller rådgivning.
Vi vil snart gå inn i en epoke der det å gå etter disse arbeidsflytene vil være like verdsatt som koding. Dette kommer til å være en enorm opplåsing for den neste bølgen av AI-agentbrukstilfeller i bedriften.

will depue5. sep., 07:02
Ofte er forskerens evne til å iterere på en evne begrenset av vår evne til å måle denne evnen. Jeg tror fremgang er mer eval-begrenset enn folk tror.
Noen ganger føles evaler kausale. fulgte SWE-Bench agentkoding, eller fulgte agentkoding SWE-bench?
Vi hører ofte om å løse virkelig langsiktige oppgaver (uker, måneder), eller kontinuerlig læring som er nødvendig for AGI osv. Men hvor er vurderingene for å bevise modellenes mangler her?
Jeg vil gjerne at flere jobber med AGI-komplette evalueringer, evalueringer som virkelig sporer økonomisk verdi og innvirkning, månedslange oppgaver osv.
79,93K
Topp
Rangering
Favoritter