Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La ingeniería en Anthropic lanzó otro gran contenido.
Su manual interno para evaluar agentes de IA.
Aquí está la lección más contraintuitiva que aprendí de él:
No pruebes los pasos que tomó tu agente. Prueba lo que realmente produjo.
Esto va en contra de cada instinto. Pensarías que revisar cada paso asegura calidad. Pero los agentes son creativos. Encuentran soluciones que no anticipaste. Castigar caminos inesperados solo hace que tus evaluaciones sean frágiles.
Lo que importa es el resultado final. Prueba eso directamente.
El manual desglosa tres tipos de evaluadores:
- Basado en código: Rápido y objetivo, pero frágil ante variaciones válidas.
- Basado en modelo: LLM-como-juez con rúbricas. Flexible, pero necesita calibración.
- Humano: Estándar de oro, pero costoso. Úsalo con moderación.
También cubre estrategias de evaluación para agentes de codificación, agentes conversacionales, agentes de investigación y agentes de uso de computadoras.
Conclusiones clave:
- Comienza con 20-50 casos de prueba de fallos reales
- Cada prueba debe comenzar desde un entorno limpio
- Realiza múltiples pruebas ya que las salidas del modelo varían
- Lee las transcripciones. Así es como detectas errores de evaluación.
Si te tomas en serio el envío de agentes confiables, te recomiendo encarecidamente leerlo.
Enlace en el siguiente tweet.

Parte superior
Clasificación
Favoritos
