Nessuno sa cosa ci aspetta Una singola persona con un'idea potrebbe agire come il "CEO" di un'azienda di 10.000 agenti in 2 anni. Avrai "software come pensiero" e non come servizio. Quando parli, un miliardo di istanze "sciame" costruisce il backend, il frontend, la sicurezza e l'infrastruttura di scalabilità in pochi minuti. Negli ultimi 18 mesi abbiamo assistito al ritmo di progresso più rapido che abbiamo mai visto nella storia dell'informatica. Ti imploro di leggere riguardo a SWE pro. È stato creato per essere resistente alla contaminazione. Non ho ancora letto una buona ragione per cui, una volta che raggiungiamo il 90-100% su questo benchmark, tutta l'ingegneria del software non sarebbe risolta. Questo è uno dei benchmark più complessi e difficilmente progettati. I compiti sono così lunghi che l'agente deve essere in grado di apprendere dai propri fallimenti nei test all'interno della stessa sessione - essenzialmente un modello dovrebbe avere qualche forma di apprendimento continuo per superare questo benchmark. Il preview di Gemini 2.5 ha ottenuto il 13% Il preview di Gemini 3 ha ottenuto il 43% Claude Opus 4.5 è attualmente in testa con il 45% (secondo scale ai) — HAI PERSONE IN ANTHROPIC CHE TI DICONO CHE GUARDANO CLAUDE TUTTO IL GIORNO E RIEMPIONO LE LACUNE. Certo, puoi gridare al lupo che sono incentivati a dirlo, ma la tua timeline X non è stata costantemente scioccante negli ultimi 2 settimane riguardo a quanto siano bravi i modelli nella programmazione? Soprattutto 4.5 Opus? È abbondantemente chiaro per me che l'ingegneria del software sarà risolta in 2 anni. Anche se dovessi raddoppiare, no, TRIPLICARE quella stima, avrebbe un IMPATTO PROFONDO sul PIL e sulla vita media degli americani.