Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Selv etter den bratte fremgangen de siste tre månedene, er det fortsatt slik at AI-ytelse er knyttet til oppgavekjennskap. I domener som kan tettpakkes (via programmatisk generering + verifisering), er ytelsen effektivt ubegrenset, og vil fortsette å øke fra dagens nivåer. I nye, ukjente områder forblir ytelsen lav og videre fremgang krever fortsatt nye ideer, ikke bare mer data og databehandling.

13 timer siden
Ok, jeg tror eksperimentet mitt med å la AI jobbe med ting 24/7 slutter her. Det fungerer ikke. Koden eksploderer i kompleksitet, resultatene er ikke så gode, AI-en klarer ikke å komme forbi harde vegger (den klarer fortsatt ikke engang å *forstå* SupGen), og det er sinnssykt dyrt (har brukt ~1 000 de siste 2 dagene). De beste resultatene er på JS-kompilatoren, mest fordi den er kjent (sammenlignet med inets), men ikke verdt å miste kontrollen over kodebasen.
Jeg tror drømmen om å ha AI-er som jobber i bakgrunnen og gjøre reell fremgang på ting som betyr noe (altså virkelig nye ting) ikke er her ennå. Den er fortsatt en maskin som sitter fast i sine egne treningsdata, ute av stand til å tenke utenfor boksen. Det er flott for å bygge ting som allerede er bygget. Men ikke nye ting
Koding har også vanligvis den undervurderte fordelen at du gjør to ting samtidig: bygger en kodebase *og* lærer den. AI-er gjør bare halvparten av det. Den andre halvdelen er åpenbart umulig 🤔
For benchmarks som retter seg mot nye oppgaver, er en vanlig form for benchmark-hacking som arbitrerer dette gapet å generere et tett utvalg av potensielle oppgaver ved manuelt parameterisering av rommet og deretter brute-forcere det. Veldig dyrt, men det fungerer. Det er lite du kan gjøre for å gjenopprette referansegyldigheten her annet enn å øke dimensjonaliteten i oppgaverommet.
35
Topp
Rangering
Favoritter
