Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ninguém sabe o que está por vir
Uma única pessoa com uma ideia poderia atuar como "CEO" de uma empresa com 10.000 agentes em 2 anos
Você terá "software como um pensamento", não como um serviço. Quando você fala em um bilhão de instâncias, o "enxame" constrói o backend, frontend, segurança e infraestrutura de escalabilidade em minutos.
Os últimos 18 meses foram o ritmo de progresso mais rápido que já testemunhamos na história da ciência da computação.
Imploro que leia sobre o SWE Pro. Foi feito para ser resistente à contaminação. Ainda não li uma boa razão para que, uma vez que tivermos 90-100% nesse benchmark, toda a engenharia de software não será resolvida. Este é um dos benchmarks mais complexos e difíceis de ser projetados. As tarefas são tão longas que o agente precisa ser capaz de aprender com seus próprios testes falhados na mesma sessão – essencialmente, um modelo teria que ter algum tipo de aprendizado contínuo para superar esse benchmark.
A prévia do Gemini 2.5 teve 13%
A prévia do Gemini 3 teve 43%
Claude Opus 4.5 está atualmente na liderança com 45% (segundo a Scale AI) — VOCÊ TEM PESSOAS NA ANTHROPIC DIZENDO QUE ASSISTEM CLAUDE O DIA TODO E PREENCHEM LACUNAS.
Claro que dá para reclamar que eles estão incentivados a dizer isso, mas será que sua linha do tempo X não foi nas últimas duas semanas um choque constante sobre o quão bons os modelos programam são? Especialmente o 4.5 Opus?
Está claro para mim que engenharia de software será resolvida em 2 anos. Mesmo que você dobrasse, não, TRIPLICASSE, isso teria um impacto PROFUNDO no PIB e na vida média americana

Melhores
Classificação
Favoritos
