Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Ninguém sabe o que está por vir Uma única pessoa com uma ideia poderia atuar como o "CEO" de uma empresa de 10.000 agentes em 2 anos Você terá "software como um pensamento" e não como um serviço. Quando você fala, um bilhão de instâncias "enxame" constrói a infraestrutura de backend, frontend, segurança e escalabilidade em minutos. Os últimos 18 meses testemunharam o ritmo mais rápido de progresso que já vimos na história da ciência da computação. Imploro que você leia sobre o SWE pro. Foi feito para ser resistente à contaminação. Ainda não li uma boa razão pela qual, uma vez que alcançamos 90-100% neste benchmark, toda a engenharia de software não estaria resolvida. Este é um dos benchmarks mais complexos e difíceis de projetar. As tarefas são tão longas que o agente deve ser capaz de aprender com suas próprias tentativas de teste falhadas dentro da mesma sessão - essencialmente, um modelo teria que ter alguma forma de aprendizado contínuo para superar este benchmark. A prévia do Gemini 2.5 marcou 13% A prévia do Gemini 3 marcou 43% O Claude Opus 4.5 está atualmente na liderança com 45% (de acordo com a scale ai) — VOCÊ TEM PESSOAS NA ANTHROPIC DIZENDO QUE ASSISTEM CLAUDE O DIA TODO E PREENCHEM LACUNAS. Claro que você pode gritar que eles estão incentivados a dizer isso, mas a sua linha do tempo X não tem sido, nas últimas 2 semanas, um choque constante sobre quão bons os modelos de codificação são? Especialmente o 4.5 Opus? Está abundamente claro para mim que a engenharia de software será resolvida em 2 anos. Mesmo que você dobrasse, não, TRIPLICASSE essa estimativa, teria um IMPACTO PROFUNDO no PIB e na vida média do americano.

Top

Classificação

Favoritos