Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nessuno sa cosa ci aspetta
Una singola persona con un'idea potrebbe agire come il "CEO" di un'azienda di 10.000 agenti in 2 anni.
Avrai "software come pensiero" e non come servizio. Quando parli, un miliardo di istanze "sciame" costruisce il backend, il frontend, la sicurezza e l'infrastruttura di scalabilità in pochi minuti.
Negli ultimi 18 mesi abbiamo assistito al ritmo di progresso più rapido che abbiamo mai visto nella storia dell'informatica.
Ti imploro di leggere riguardo a SWE pro. È stato creato per essere resistente alla contaminazione. Non ho ancora letto una buona ragione per cui, una volta che raggiungiamo il 90-100% su questo benchmark, tutta l'ingegneria del software non sarebbe risolta. Questo è uno dei benchmark più complessi e difficilmente progettati. I compiti sono così lunghi che l'agente deve essere in grado di apprendere dai propri fallimenti nei test all'interno della stessa sessione - essenzialmente un modello dovrebbe avere qualche forma di apprendimento continuo per superare questo benchmark.
Il preview di Gemini 2.5 ha ottenuto il 13%
Il preview di Gemini 3 ha ottenuto il 43%
Claude Opus 4.5 è attualmente in testa con il 45% (secondo scale ai) — HAI PERSONE IN ANTHROPIC CHE TI DICONO CHE GUARDANO CLAUDE TUTTO IL GIORNO E RIEMPIONO LE LACUNE.
Certo, puoi gridare al lupo che sono incentivati a dirlo, ma la tua timeline X non è stata costantemente scioccante negli ultimi 2 settimane riguardo a quanto siano bravi i modelli nella programmazione? Soprattutto 4.5 Opus?
È abbondantemente chiaro per me che l'ingegneria del software sarà risolta in 2 anni. Anche se dovessi raddoppiare, no, TRIPLICARE quella stima, avrebbe un IMPATTO PROFONDO sul PIL e sulla vita media degli americani.

Principali
Ranking
Preferiti
