Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva investigación de Anthropic: Midiendo la autonomía de los agentes de IA en la práctica.
Analizamos millones de interacciones a través de Claude Code y nuestra API para entender cuánta autonomía otorgan las personas a los agentes, dónde se despliegan y qué riesgos pueden representar.
Lee más:
Los agentes ya se están desplegando en contextos que van desde la clasificación de correos electrónicos hasta la investigación en ciberseguridad.
Entender este espectro es fundamental para un despliegue seguro, sin embargo, sabemos sorprendentemente poco sobre cómo las personas realmente utilizan los agentes en el mundo real.
La mayoría de los turnos de Claude Code son cortos (mediana ~45 segundos). Pero los turnos más largos muestran hacia dónde se dirige la autonomía.
En tres meses, la duración del turno en el percentil 99.9 casi se duplicó, pasando de menos de 25 minutos a más de 45 minutos. Este crecimiento es fluido a lo largo de las versiones del modelo.

A medida que los usuarios adquieren experiencia, su estrategia de supervisión cambia.
Los nuevos usuarios aprueban cada acción de forma individual. A las 750 sesiones, más del 40% de las sesiones son completamente aprobadas de forma automática.

Pero las interrupciones también aumentan con la experiencia. Los nuevos usuarios interrumpen a Claude Code en el 5% de los turnos, en comparación con el 9% de los usuarios más experimentados.
Esto sugiere un cambio de aprobar cada acción a delegar e interrumpir cuando sea necesario.

Claude Code también fomenta la supervisión al detenerse a hacer preguntas.
En tareas complejas, Claude Code se detiene para pedir aclaraciones más del doble de veces que los humanos lo interrumpen. Entrenar modelos para reconocer la incertidumbre es una propiedad de seguridad importante y poco apreciada.

La mayoría de las acciones de los agentes en nuestra API son de bajo riesgo. El 73% de las llamadas a herramientas parecen tener a un humano en el bucle, y solo el 0.8% son irreversibles.
Pero en la frontera, vemos a los agentes actuando sobre sistemas de seguridad, transacciones financieras y despliegues de producción (aunque algunos pueden ser evaluaciones).

La ingeniería de software representa aproximadamente el 50% de las llamadas a herramientas agentivas en nuestra API, pero vemos un uso emergente en otras industrias.
A medida que se expande la frontera del riesgo y la autonomía, el monitoreo posterior al despliegue se vuelve esencial. Animamos a otros desarrolladores de modelos a ampliar esta investigación.

Una lección central de este trabajo es que la autonomía es co-construida por el modelo, el usuario y el producto. No puede ser caracterizada completamente solo por evaluaciones previas al despliegue.
Para obtener todos los detalles y nuestras recomendaciones para desarrolladores y responsables de políticas, consulta el blog:
204
Parte superior
Clasificación
Favoritos
