Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ninguém sabe o que está por vir
Uma única pessoa com uma ideia poderia atuar como o "CEO" de uma empresa de 10.000 agentes em 2 anos
Você terá "software como um pensamento" e não como um serviço. Quando você fala, um bilhão de instâncias "enxame" constrói a infraestrutura de backend, frontend, segurança e escalabilidade em minutos.
Os últimos 18 meses testemunharam o ritmo mais rápido de progresso que já vimos na história da ciência da computação.
Imploro que você leia sobre o SWE pro. Foi feito para ser resistente à contaminação. Ainda não li uma boa razão pela qual, uma vez que alcançamos 90-100% neste benchmark, toda a engenharia de software não estaria resolvida. Este é um dos benchmarks mais complexos e difíceis de projetar. As tarefas são tão longas que o agente deve ser capaz de aprender com suas próprias tentativas de teste falhadas dentro da mesma sessão - essencialmente, um modelo teria que ter alguma forma de aprendizado contínuo para superar este benchmark.
A prévia do Gemini 2.5 marcou 13%
A prévia do Gemini 3 marcou 43%
O Claude Opus 4.5 está atualmente na liderança com 45% (de acordo com a scale ai) — VOCÊ TEM PESSOAS NA ANTHROPIC DIZENDO QUE ASSISTEM CLAUDE O DIA TODO E PREENCHEM LACUNAS.
Claro que você pode gritar que eles estão incentivados a dizer isso, mas a sua linha do tempo X não tem sido, nas últimas 2 semanas, um choque constante sobre quão bons os modelos de codificação são? Especialmente o 4.5 Opus?
Está abundamente claro para mim que a engenharia de software será resolvida em 2 anos. Mesmo que você dobrasse, não, TRIPLICASSE essa estimativa, teria um IMPACTO PROFUNDO no PIB e na vida média do americano.

Top
Classificação
Favoritos
