Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Engenharia da Anthropic lançou outro sucesso.
O manual interno deles para avaliar agentes de IA.
Aqui está a lição mais contraintuitiva que aprendi com ele:
Não teste os passos que seu agente tomou. Teste o que ele realmente produziu.
Isso vai contra todo instinto. Você pensaria que conferir cada etapa garante qualidade. Mas os agentes são criativos. Eles encontram soluções que você não esperava. Punir caminhos inesperados só deixa suas avaliações mais frágeis.
O que importa é o resultado final. Teste isso diretamente.
O manual divide três tipos de avaliadores:
- Baseado em código: Rápido e objetivo, mas frágil a variações válidas.
- Baseado em modelos: LLM-as-judge com rubricas. Flexível, mas precisa de calibração.
- Humano: Padrão ouro, mas caro. Use com moderação.
Também aborda estratégias de avaliação para agentes de codificação, agentes conversacionais, agentes de pesquisa e agentes de uso de computadores.
Principais lições:
- Começar com 20-50 casos de teste de falhas reais
- Cada ensaio deve começar em um ambiente limpo
- Rodar múltiplos testes, já que as saídas dos modelos variam
- Leia as transcrições. É assim que você pega bugs de correção.
Se você está realmente interessado em enviar agentes confiáveis. Recomendo muito a leitura.
Link no próximo tweet.

Melhores
Classificação
Favoritos
