Ninguém sabe o que está por vir Uma única pessoa com uma ideia poderia atuar como "CEO" de uma empresa com 10.000 agentes em 2 anos Você terá "software como um pensamento", não como um serviço. Quando você fala em um bilhão de instâncias, o "enxame" constrói o backend, frontend, segurança e infraestrutura de escalabilidade em minutos. Os últimos 18 meses foram o ritmo de progresso mais rápido que já testemunhamos na história da ciência da computação. Imploro que leia sobre o SWE Pro. Foi feito para ser resistente à contaminação. Ainda não li uma boa razão para que, uma vez que tivermos 90-100% nesse benchmark, toda a engenharia de software não será resolvida. Este é um dos benchmarks mais complexos e difíceis de ser projetados. As tarefas são tão longas que o agente precisa ser capaz de aprender com seus próprios testes falhados na mesma sessão – essencialmente, um modelo teria que ter algum tipo de aprendizado contínuo para superar esse benchmark. A prévia do Gemini 2.5 teve 13% A prévia do Gemini 3 teve 43% Claude Opus 4.5 está atualmente na liderança com 45% (segundo a Scale AI) — VOCÊ TEM PESSOAS NA ANTHROPIC DIZENDO QUE ASSISTEM CLAUDE O DIA TODO E PREENCHEM LACUNAS. Claro que dá para reclamar que eles estão incentivados a dizer isso, mas será que sua linha do tempo X não foi nas últimas duas semanas um choque constante sobre o quão bons os modelos programam são? Especialmente o 4.5 Opus? Está claro para mim que engenharia de software será resolvida em 2 anos. Mesmo que você dobrasse, não, TRIPLICASSE, isso teria um impacto PROFUNDO no PIB e na vida média americana