Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.

Think-at-Hard: Iterações Latentes Seletivas para Melhorar Modelos de Linguagem de Raciocínio
A iteração latente dinâmica é difícil: precisa de contexto completo, objetivos adaptativos, reutilização de parâmetros, mas o acoplamento de qualidade de políticas causa instabilidade no treinamento.


Este trabalho introduz o TaH, um pensamento latente dinâmico que itera apenas sobre tokens hard, desenvolvendo um arco de modelo especializado e um método de treinamento estável, aplicando seletivamente iteração latente.
Ajustado de Qwen3-0,6/1,7B-Base, o TaH alcança +4% em 5 benchmarks de raciocínio.

P1: Dominando as Olimpíadas de Física com Aprendizado por Reforço
Este trabalho apresenta o P1, uma família de modelos de raciocínio físico OSS. Eles integram tanto a escala de tempo de treinamento quanto de tempo de teste, garantindo uma capacidade de raciocínio mais forte implementada de forma adaptativa na inferência.

Os modelos P1 são treinados puramente por meio de treinamento pós-RL em LMs base em um framework RL de múltiplos estágios. Para o tempo de teste, eles combinam modelos P1 com o framework de agentes PhysicsMinions.
O modelo P1-235B-A22B alcança desempenho de medalha de ouro no IPhO 2025.

MiroThinker: Ultrapassando os Limites de Desempenho de Agentes de Pesquisa de Código Aberto por Meio de Modelo, Contexto e Escalabilidade Interativa
O artigo apresenta um agente de pesquisa que impulsiona o desempenho em 3 dimensões: tamanho do modelo, comprimento do contexto e profundidade de interação.

Para sustentar processos profundos de raciocínio, o modelo é equipado com uma janela de contexto de 256K e até 600 chamadas de ferramenta por tarefa.
O MiroThinker v1.0, equipado com um agente ReAct simples, alcança desempenho SOTA entre agentes de pesquisa open-source.


O que é preciso para ser um bom agente de pesquisa em IA? Estudando o Papel da Diversidade de Ideação
Este artigo propõe métodos para quantificar e controlar a diversidade de ideação do agente. A escolha do andaime agentico influencia significativamente a diversidade de ideação.


Por meio de um desenho experimental controlado, estabelecem uma relação causal, mostrando que o aumento da diversidade de ideação leva a um desempenho melhorado em tarefas de laboratório MLE. Eles também estabelecem robustez quando avaliados com métricas de desempenho alternativas.

DR Tulu: Aprendizagem por Reforço com Rubricas Evolutivas para Pesquisa Profunda
Este artigo treina Tulu de pesquisa profunda (DR Tulu-8B) treinada para tarefas de pesquisa profunda e de longa duração.

Para tratar a verificação em tarefas de formato longo, o DR-Tulu é ajustado com dados de usuários de alta qualidade e, em seguida, treinado via RL com rubricas evolutivas (RLER), nas quais as rubricas coevoluem com o modelo de políticas durante o treinamento. Eles obtêm resultados melhores do que os modelos abertos 8-32 mais resistentes.

Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e
@ritualnet para saber mais sobre o que a Ritual está construindo.
3,13K
Melhores
Classificação
Favoritos

