Uma Escada de Sigmoides Eu me aprofundei em uma referência depois de ler o artigo do Dwarkesh que me deixou bastante preocupado. No post, ele menciona: "Toby Ord tem um ótimo post onde ele conecta de forma inteligente os pontos entre diferentes gráficos de referência da série o, que sugeriu que "precisamos de algo como um aumento de 1.000.000x do total de computação RL para dar um impulso semelhante ao nível do GPT"." Isso faz parecer que as coisas vão estagnar. Toby vai tão longe a ponto de dizer duas coisas que me deixaram preocupado: 1. "Vimos ganhos impressionantes, mas estes foram viáveis apenas quando começamos de uma base tão baixa. Chegamos ao ponto em que é muito caro avançar muito mais." 2. "Agora que o treinamento de RL está se aproximando de seu limite efetivo, podemos ter perdido a capacidade de transformar mais computação em mais inteligência de forma eficaz." Perguntei por aí quão legítima era essa afirmação e qual era o caso oposto otimista para escalar o RL. Um bom amigo disse: "Sim, se você continuar escalando a computação de RL de forma ingênua, ela escalará mal. Mas não devemos fazer isso! É por isso que existem tantas empresas de ambientes de RL. Uma abordagem melhor é escalar para ambientes novos e mais difíceis. " Depois de ponderar um pouco, encontrei uma maneira de comprimir isso ainda mais: "Imaginar isso como uma escada de sigmoides para novas tarefas, mundos, objetivos é a maneira mais útil de pensar sobre como isso pode continuar por um tempo."