Uma Escada de Sigmoides Me aprofundei em uma referência depois de ler o texto do Dwarkesh que me deixou bastante preocupado. No post, ele menciona: "Toby Ord tem um ótimo post onde ele conecta de forma inteligente os pontos entre diferentes gráficos de benchmark da série o, que sugeria que "precisamos de algo como uma ampliação de 1.000.000 de vezes do cálculo total de RL para dar um impulso semelhante ao nível do GPT"." Isso faz parecer que as coisas vão estagnar. Toby chega ao ponto de dizer duas coisas que me deixaram preocupado: 1. "Vimos ganhos impressionantes, mas só foram viáveis partindo de uma base tão baixa. Chegamos ao ponto em que é caro demais ir muito longe." 2. "Agora que o treinamento em RL está se aproximando do seu limite efetivo, podemos ter perdido a capacidade de transformar mais computação em mais inteligência." Perguntei por aí quão legítima era essa afirmação e qual era o argumento oposto para aumentar o RL. Um bom amigo disse: "Sim, se você continuar escalando ingenuamente a computação RL, ela vai escalar mal. Mas não deveríamos fazer isso! É por isso que existem tantas empresas de meio ambiente RL. Uma abordagem melhor é escalar para ambientes novos e mais difíceis. " Depois de refletir um pouco, encontrei uma forma de condensar ainda mais para: "Imaginar como uma escada são sigmoides para novas tarefas, mundos, objetivos é a forma mais útil de pensar em como pode continuar por um tempo."