Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Digest do Ritual Research desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção entre Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com o que há de mais recente. Nós fazemos a leitura para que você não precise.

RefineBench: Avaliação da Capacidade de Refinamento de Modelos de Linguagem através de Listas de Verificação
Este artigo apresenta o RefineBench, um benchmark que avalia as capacidades de refinamento dos MLs em vários cenários. Ele incorpora tanto tarefas de forma livre quanto tarefas baseadas em precisão.

Cobre 11 domínios nas áreas das humanidades, ciências sociais, direito e STEM. Isso é avaliado de 2 maneiras: auto-refinamento e refinamento guiado. Em um cenário de auto-refinamento, mesmo os LMs de ponta têm pontuações relativamente baixas, enquanto o refinamento guiado é muito eficaz.


ThetaEvolve: Aprendizagem em Tempo de Teste em Problemas Abertos
O artigo propõe um pipeline de código aberto para enfrentar problemas desafiadores. Eles mostram que o DeepSeek-R1-0528-Qwen3-8B melhora os melhores limites conhecidos de alguns problemas abertos considerados no AlphaEvolve.

O RL na ThetaEvolve supera as execuções apenas de inferência em 2 modelos OSS e 4 problemas desafiadores. Eles mostram que o modelo ganha capacidades não triviais, como evidenciado por melhores pontuações e progresso mais rápido. Esta melhoria até se transfere para outras tarefas.

Como é que o RL pós-treinamento induz a composição de habilidades? Um estudo de caso sobre a contagem decrescente
O artigo explora como o RL pode ajudar um modelo a aprender a compor habilidades com a ajuda da contagem decrescente. Eles desvendam a generalização de comprimento e composicional.

Eles descobrem que:
1) Os modelos generalizam para tamanhos de quebra-cabeça maiores
2) A estrutura do padrão determina a dificuldade
3) Os modelos generalizam para padrões não vistos
Mostrando, em última análise, que o RL após o treinamento ajuda na generalização de comprimento e na generalização composicional parcial


DeepSeek-V3.2: A Avançar a Frontier dos Modelos de Linguagem Grande e Abertos
O artigo apresenta o DS-V3.2, que incorpora a atenção esparsa do Deepseek para reduzir a complexidade computacional enquanto preserva o desempenho em cenários de longo contexto.

Para o pós-treinamento de RL, eles empregam destilação especializada (por modelos de especialistas em domínio, os dados são destilados para treinar o ponto de verificação final) e treinamento misto de RL (mesclando raciocínio, agente e alinhamento humano em uma única etapa).
Eles treinam um modelo especial usando DSmath-V2, alcançando ouro na IMO.


Siga-nos @ritualdigest para mais informações sobre tudo relacionado a pesquisa em cripto x IA, e
@ritualnet para saber mais sobre o que a Ritual está construindo.
368
Top
Classificação
Favoritos
