Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Gemini Thinking, Equipe Sênior RS @GoogleDeepMind. 🇯🇵 -nascido 🇨🇳🇨🇦 . ex: Gemini Multilinguality Post-Train Lead, GPT-4 @OpenAI (JP: @shanegJP)
Organizamos o primeiro workshop "centrado em dados" de RL na NeurIPS em 2021 (durante o mercado em baixa para RL profundo). Adoraria vê-lo novamente agora na era dos LLMs e ambientes de RL do mundo real.


Andrej Karpathy28/08/2025
Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da internet para aprender.
Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM.
Nenhum dos dois acima vai desaparecer (na minha opinião), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - tomar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação estatística de especialistas. E eles podem ser usados tanto para treinamento quanto para avaliação do modelo. Mas, assim como antes, o problema central agora é a necessidade de um conjunto grande, diversificado e de alta qualidade de ambientes, como exercícios para o LLM praticar.
De certa forma, sou lembrado do primeiro projeto da OpenAI (gym), que era exatamente uma estrutura esperando construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Então, os ambientes eram tarefas de controle acadêmico simples da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório `verifiers` no GitHub) constrói a versão modernizada especificamente direcionada a LLMs, e é um grande esforço/ideia. Eu sugeri que alguém construísse algo assim no início deste ano:
Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja em vigor, em princípio, a comunidade/indústria pode paralelizar em muitos domínios diferentes, o que é empolgante.
Pensamento final - pessoalmente e a longo prazo, sou otimista em relação a ambientes e interações agentivas, mas sou pessimista em relação ao aprendizado por reforço especificamente. Eu acho que funções de recompensa são super suspeitas, e eu acho que os humanos não usam RL para aprender (talvez o façam para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam paradigmas de aprendizado diferentes que são significativamente mais poderosos e eficientes em amostras e que ainda não foram devidamente inventados e escalados, embora esboços e ideias iniciais existam (como apenas um exemplo, a ideia de "aprendizado de prompt de sistema", movendo a atualização para tokens/contextos, não pesos, e opcionalmente destilando para pesos como um processo separado, um pouco como o sono faz).
7,16K
Pais asiáticos: "(Depois de dias de negociações). Tudo bem, você pode passar 1-2 anos construindo AGI. Mas depois da AGI, candidate-se ao doutorado e nos faça orgulhosos."

Shane Gu29/08/2025
Solve a moonshot research project -> then apply for PhD
314
Top
Classificação
Favoritos