os métodos de alinhamento modernos parecem funcionar razoavelmente bem em diferentes ordens de magnitude de escalonamento de modelos, sobreviveram à transição para recompensas verificáveis e isso deve pelo menos informar a sua tomada de decisão
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️17/03, 03:26
Ouvi dizer que alguns líderes de segurança antropica estão a dizer às pessoas que o alinhamento é um problema resolvido. Isso parece-me uma falha previsível, e gostaria que as pessoas que acharam que direcionar talento para a antropica era uma boa ideia refletissem sobre isso.
"isto não escalará para superinteligência" baseia-se na ideia de que a superinteligência é muito diferente dos modelos de hoje, o que é um argumento de longos prazos, e deve te dar conforto de uma maneira diferente.
83