Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kukaan ei tiedä, mitä on tulossa
Yksi henkilö, jolla on idea, voisi toimia "toimitusjohtajana" 10 000 agentin yrityksessä kahdessa vuodessa
Sinulla on "ohjelmisto ajatuksena", et palveluna. Kun puhutaan miljardi instanssia, "swarm" rakentaa backendin, frontendin, tietoturvan ja skaalausinfrastruktuurin minuuteissa.
Viimeiset 18 kuukautta ovat nähneet nopeimman edistysaskeleen, mitä olemme koskaan nähneet tietojenkäsittelytieteen historiassa.
Pyydän sinua lukemaan ohjelmistokehityksestä. Se tehtiin kontaminaatiota kestäväksi. En ole vielä lukenut hyvää syytä, miksi kun saamme 90-100 % pisteitä tässä vertailuarvossa, koko ohjelmistokehitys ei ratkeaisi. Tämä on yksi monimutkaisimmista ja vaikeasti suunnitelluista vertailuarvoista. Tehtävät ovat niin pitkiä, että agentin täytyy pystyä oppimaan omista epäonnistuneista testiajoistaan saman session aikana – käytännössä mallin täytyy olla jonkinlainen jatkuva oppiminen tämän vertailun voittamiseksi.
Gemini 2.5 preview sai pisteet 13 %
Gemini 3:n ennakko sai 43 % pisteet
Claude Opus 4.5 johtaa tällä hetkellä 45 %:lla (Scale AI:n mukaan) — ANTHROPICIN IHMISET KERTOVAT KATSOVANSA CLAUDEA KOKO PÄIVÄN JA TÄYTTÄVÄNSÄ AUKKOJA.
Toki voi huutaa, että heillä on kannustin sanoa niin, mutta onko X-aikajanasi viimeisen kahden viikon ajan ollut jatkuva shokki siitä, kuinka hyviä mallit koodaavat? Erityisesti 4.5 Opus?
Minulle on täysin selvää, että ohjelmistokehitys ratkeaa kahdessa vuodessa. Vaikka kaksinkertaistaisit, ei KOLMINKERTAISTAISIN, arvelen, että sillä olisi SYVÄLLINEN vaikutus BKT:hen ja keskimääräiseen amerikkalaiseen elämään

Johtavat
Rankkaus
Suosikit
