Agradeço a honestidade da @Anthropic no último cartão de sistema, mas o conteúdo dele não me dá confiança de que a empresa agirá de forma responsável na implantação de modelos avançados de IA: -Eles se basearam principalmente em uma pesquisa interna para determinar se o Opus 4.6 ultrapassava seu limite autônomo de R&D-4 em IA (e, portanto, exigiria salvaguardas mais rigorosas para ser lançado sob sua Política de Escalonamento Responsável). Isso nem sequer foi uma pesquisa externa com um terceiro imparcial, mas sim uma pesquisa com funcionários da Anthropic. -Quando 5/16 entrevistados internamente fizeram uma avaliação sugerindo que poderiam ser necessárias salvaguardas mais fortes para a liberação do modelo, a Anthropic fez um acompanhamento específico com esses funcionários e pediu que "esclarecessem suas opiniões." Eles não mencionam nenhum acompanhamento semelhante para os outros 11/16 entrevistados. Não há discussão no cartão do sistema sobre como isso pode criar viés nos resultados da pesquisa. -O motivo deles dependerem das pesquisas é que as avaliações de P&D de IA já existentes estão saturadas. Alguns podem argumentar que o progresso da IA foi tão rápido que é compreensível que ainda não tenham avaliações quantitativas mais avançadas, mas podemos e devemos exigir que os laboratórios de IA sejam elevados ao nível do esperado. Além disso, outros laboratórios têm avaliações avançadas de P&D em IA que não são saturadas. Por exemplo, a OpenAI possui o benchmark OPQA, que mede a capacidade dos modelos de IA de resolver problemas internos reais que as equipes de pesquisa da OpenAI enfrentaram e que levaram mais de um dia para serem resolvidos. Não acho que o Opus 4.6 esteja realmente no nível de um pesquisador remoto de IA de nível inicial, e não acho perigoso lançar. Mas o objetivo de uma Política de Escalabilidade Responsável é construir músculo institucional e bons hábitos antes que as coisas se tornem sérias. Pesquisas internas, especialmente como a Anthropic as administrou, não são um substituto responsável para avaliações quantitativas.
@Anthropic cartão do sistema está aqui:
293