Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Este artigo da DeepMind acabou de destruir silenciosamente a mentira mais reconfortante na segurança da IA. A ideia de que a segurança diz respeito a como os modelos se comportam na maior parte do tempo parece razoável. Também está errada no momento em que os sistemas escalam. A DeepMind mostra por que as médias deixam de importar quando a implementação atinge milhões de interações. O artigo reformula a segurança da AGI como um problema de distribuição. O que importa não é o comportamento típico. É a cauda. Falhas raras. Casos extremos. Eventos de baixa probabilidade que parecem ignoráveis em testes, mas se tornam inevitáveis no mundo real. Benchmarks, red-teaming e demonstrações amostram todos o meio. A implementação amostra tudo. Usuários estranhos, incentivos peculiares, ciclos de feedback hostis, ambientes que ninguém planejou. Em escala, esses casos deixam de ser raros. Eles são garantidos. Aqui está a percepção desconfortável: o progresso pode fazer os sistemas parecerem mais seguros enquanto os torna silenciosamente mais perigosos. Se a capacidade cresce mais rápido do que o controle da cauda, as falhas visíveis diminuem enquanto o risco catastrófico se acumula fora da tela. Dois modelos podem parecer idênticos em média e ainda assim diferir drasticamente no comportamento em piores casos. As avaliações atuais não conseguem ver essa lacuna. Os frameworks de governança assumem que conseguem. Você não pode certificar a segurança com testes finitos quando o risco reside na mudança de distribuição. Você nunca está testando o sistema que realmente implementa. Você está amostrando um futuro que não controla. Essa é a verdadeira piada. A segurança da AGI não é um atributo do modelo. É um problema de sistemas. O contexto de implementação, incentivos, monitoramento e quanto risco de cauda a sociedade tolera importam mais do que médias limpas. Este artigo não tranquiliza. Ele remove a ilusão. A questão não é se o modelo geralmente se comporta bem. É o que acontece quando não se comporta — e com que frequência isso é permitido antes que a escala o torne inaceitável. Artigo:

Top

Classificação

Favoritos