Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nadie sabe lo que viene
Una sola persona con una idea podría actuar como "CEO" de una empresa de 10.000 agentes en 2 años
Tendrás "software como pensamiento", no como servicio. Cuando hablas de mil millones de instancias, "enjambre" construye el backend, frontend, seguridad y infraestructura de escalado en minutos.
Los últimos 18 meses han visto el ritmo de progreso más rápido que hemos visto en la historia de la informática.
Te ruego que leas sobre SWE Pro. Fue diseñado para ser resistente a la contaminación. Aún no he leído una buena razón por la que, una vez que saquemos un 90-100% en este benchmark, toda la ingeniería de software no se resuelva. Este es uno de los benchmarks más complejos y difícilmente diseñados. Las tareas son tan largas que el agente debe ser capaz de aprender de sus propias pruebas fallidas dentro de la misma sesión; esencialmente, un modelo tendría que tener algún tipo de aprendizaje continuo para superar este benchmark.
La vista previa de Gemini 2.5 obtuvo un 13%
Avance de Gemini 3 puntuó un 43%
Claude Opus 4.5 lidera actualmente con un 45% (según Scale AI) — HAY GENTE EN ANTHROPIC DICIENDO QUE VEN CLAUDE TODO EL DÍA Y RELLENAN HUECOS.
Claro que puedes gritar lobo porque están incentivados a decirlo, pero ¿tu cronología X no ha sido en las últimas dos semanas un shock constante sobre lo buenos que son los modelos programando? ¿Especialmente el 4.5 Opus?
Me queda más que claro que la ingeniería de software se resolverá en 2 años. Incluso si duplicaras, no TRIPLIZARAS, supongo que tendría un impacto PROFUNDO en el PIB y en la vida media estadounidense

Populares
Ranking
Favoritas
