Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
@meta @cornell de investigação // modelos de linguagem, teoria da informação, ciência da IA
aqui está um pouco de alpha grátis:
se fizermos RL por muito tempo após o pré-treinamento, certamente iremos sobrescrever parâmetros e começar a esquecer coisas
no artigo original do instructGPT, o melhor modelo deles misturou RLHF com gradientes de pré-treinamento para evitar exatamente este problema de desvio do modelo
no entanto, ninguém está fazendo isso mais. claro, é uma particular instância (mistura de gradientes) de uma ideia mais ampla (evitar o esquecimento), mas parece uma linha de pensamento grandemente negligenciada à medida que fazemos mais e mais passos de RL
por exemplo, veja o recente artigo ProRL. eles estão fazendo mais de 1000 passos de GRPO agora com uma taxa de aprendizado não trivial e sem penalidade por se desviar do modelo original. os circuitos construídos dentro do modelo durante o pré-treinamento certamente estão começando a decair. e se não, eles irão após 10k ou 100k passos de RL
suspeito que essa ideia voltará eventualmente; eles provavelmente já estão fazendo isso nos grandes laboratórios



51,13K
isto parece realmente importante:
é totalmente plausível que um modelo possa obter IMO gold sem *nenhuma* aprendizagem por reforço, dado um prompt perfeitamente elaborado
nós apenas não sabemos, e faltam ferramentas para pesquisar de forma eficiente no espaço de prompts. feliz por ver que pelo menos alguém está tentando

Lakshya A Agrawal29/07/2025
Como a otimização de prompts se compara a algoritmos de RL como o GRPO?
O GRPO precisa de milhares de rollouts, mas os humanos podem aprender com algumas tentativas—refletindo sobre o que funcionou e o que não funcionou.
Conheça o GEPA: um otimizador de prompts reflexivo que pode superar o GRPO em até 20% com 35 vezes menos rollouts!🧵

36,2K
situação hipotética -
sou uma empresa de IA que reduziu o custo de transferir e armazenar modelos a zero. posso servir a cada utilizador o seu próprio modelo sem custos adicionais.
o que devo fazer? treinar diretamente modelos específicos para o utilizador com os seus dados? ou usar RLHF nas classificações de chat? algo mais?
16,57K
o cérebro humano reserva 40% do seu processamento exclusivamente para a visão. os LLMs modernos de alguma forma evoluíram sem isso completamente.

jack morris29/07/2025
é muito surpreendente que quinze anos de pesquisa intensa em visão computacional não tenham contribuído ~nada para a AGI, exceto melhores otimizadores
ainda não temos modelos que ficam mais inteligentes quando lhes damos olhos
44,22K
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável