Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artigo de pesquisa revela por que a "IA alinhada" continua a falhar dentro de empresas reais.
As empresas falam sobre alinhamento como se fosse um interruptor universal que se ativa uma vez e se segue em frente. O artigo mostra por que essa crença se quebra no momento em que um LLM sai de uma demonstração e entra em uma organização.
Os autores introduzem o COMPASS, uma estrutura construída em torno de uma realidade simples, mas ignorada: as empresas não operam com regras de segurança genéricas. Elas operam com pilhas de políticas internas repletas de exceções, condicionais, casos extremos e incentivos conflitantes.
A maioria das avaliações de LLM ignora isso completamente.
Os modelos são geralmente testados contra ética abstrata, regras de plataforma ou benchmarks públicos. Organizações reais funcionam com manuais de conformidade, caminhos de escalonamento, restrições legais, regras de marca e playbooks operacionais que não se encaixam perfeitamente em decisões de sim ou não.
O COMPASS testa se um modelo pode funcionar dentro dessa confusão.
Não se trata de saber se reconhece a linguagem da política, mas se pode aplicar a regra certa na situação certa pela razão certa.
A estrutura foca em capacidades que a maioria dos benchmarks ignora. O modelo pode selecionar a política correta quando várias existem? Pode interpretar cláusulas e exceções vagas em vez de recorrer a recusas gerais? Pode resolver conflitos da maneira que a organização espera? Pode justificar decisões apontando para o texto da política em vez de soar confiante?
O resultado mais desconfortável é este: a maioria das falhas não se tratava de falta de conhecimento.
Eram falhas de raciocínio.
Os modelos frequentemente tinham acesso à política correta e ainda assim aplicavam a seção errada, ignoravam restrições, generalizavam excessivamente as restrições ou escolhiam respostas conservadoras que violavam os objetivos de negócios. De fora, essas respostas parecem "seguras". De dentro, são operacionalmente erradas.
É por isso que os modelos passam em benchmarks públicos e ainda falham na implementação.
Eles não estão alinhados a ninguém em particular.
A implicação mais profunda é estratégica. O alinhamento não se transfere. Um modelo alinhado para um fabricante de automóveis, um banco, um hospital e uma agência governamental não é um modelo com melhores prompts. São quatro problemas de alinhamento separados.
O COMPASS não afirma resolver o alinhamento. Ele faz algo mais valioso para as empresas. Ele torna o desalinhamento mensurável.
...

Top
Classificação
Favoritos
