Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artigo de pesquisa revela por que a "IA alinhada" continua falhando dentro de empresas reais.
As empresas falam sobre alinhamento como se fosse um interruptor universal que você aciona uma vez e segue em frente. O artigo mostra por que essa crença se quebra no momento em que um LLM sai de uma demonstração e entra em uma organização.
Os autores apresentam o COMPASS, uma estrutura construída em torno de uma realidade simples, mas ignorada: as empresas não operam com regras genéricas de segurança. Eles operam em pilhas internas de políticas repletas de exceções, condicionais, casos extremos e incentivos conflitantes.
A maioria das avaliações de LLM ignora isso completamente.
Os modelos geralmente são testados contra ética abstrata, regras de plataforma ou benchmarks públicos. Organizações reais funcionam com manuais de conformidade, caminhos de escalonamento, restrições legais, regras de marca e manuais operacionais que não se encaixam perfeitamente em decisões de sim ou não.
O COMPASS testa se um modelo pode funcionar dentro dessa bagunça.
Não se reconhece a linguagem das políticas, mas se pode aplicar a regra certa na situação certa pelo motivo certo.
O framework foca em capacidades que a maioria dos benchmarks ignora. O modelo pode selecionar a política correta quando existem várias? Pode interpretar cláusulas e exceções vagas em vez de recorrer a recusas genéricas? Será que ela pode resolver conflitos da forma que a organização espera? Será que pode justificar decisões apontando para textos de políticas em vez de soar confiante?
O resultado mais desconfortável é este: a maioria das falhas não foi por conhecimento perdido.
Eles eram falhas de raciocínio.
Os modelos frequentemente tinham acesso à política correta e ainda aplicavam a seção errada, ignoravam restrições, generalizavam demais ou escolhiam respostas conservadoras que violavam objetivos de negócios. De fora, essas respostas parecem "seguras". Por dentro, eles estão operacionalmente errados.
É por isso que os modelos passam em benchmarks públicos e ainda falham na implantação.
Eles não estão alinhados a ninguém em particular.
A implicação mais profunda é estratégica. Alinhamento não se transfere. Um modelo alinhado para uma montadora, um banco, um hospital e uma agência governamental não é um modelo com melhores sugestões. São quatro problemas de alinhamento separados.
O COMPASS não afirma resolver o alinhamento. Isso faz algo mais valioso para as empresas. Isso torna o desalinhamento mensurável.
...

Melhores
Classificação
Favoritos
