Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artigo do BMW Group e do principal instituto de pesquisa da Coreia expõe um ponto cego no qual quase toda empresa que usa LLMs está entrando diretamente.
A gente vive falando de "alinhamento" como se fosse um interruptor de segurança universal.
Não é.
O artigo apresenta o COMPASS, uma estrutura que mostra por que a maioria dos sistemas de IA falha não porque sejam inseguros, mas porque estão desalinhados com a organização que os implanta.
Aqui está o insight principal.
LLMs geralmente são avaliados em relação a políticas genéricas: regras de segurança de plataformas, diretrizes éticas abstratas ou recusas no estilo benchmark.
Mas empresas reais não funcionam com regras genéricas.
Eles funcionam com políticas internas:
- manuais de conformidade
- manuais operacionais
- procedimentos de escalonamento
- casos limites legais
- restrições específicas de marca
E essas regras são confusas, sobrepostas, condicionais e cheias de exceções.
O COMPASS foi feito para testar se um modelo realmente pode operar dentro dessa bagunça.
Não se ela conhece a linguagem das políticas, mas se pode aplicar a política certa, no contexto certo, pelo motivo certo.
O framework avalia modelos com base em quatro aspectos que benchmarks típicos ignoram:
...

Melhores
Classificação
Favoritos
