Aqui está o Digest do Ritual Research desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção entre Crypto x AI. Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com o que há de mais recente. Nós fazemos a leitura para que você não precise.
Critique-RL: Treinamento de Modelos de Linguagem para Crítica através de Aprendizado por Reforço em Duas Etapas Este artigo tem como objetivo desenvolver modelos de linguagem para crítica que não dependem de supervisão mais forte ou de uma função de recompensa oracular durante os testes.
Eles propõem o Critique-RL, uma abordagem de RL em 2 estágios, uma abordagem de RL online baseada na interação ator-crítico para desenvolver modelos de crítica. Experimentos extensivos mostram que o método supera as linhas de base, apresentando um desempenho melhor com o Qwen 2.5 7B.
PACR: Recompensa de Confiança Ascendente Progressiva para Raciocínio de LLM Este trabalho questiona se a supervisão passo a passo pode ser obtida a partir do modelo. Eles introduzem o PACR, um sinal denso e intrínseco ao modelo que converte o crescimento da confiança em supervisão passo a passo para RL.
Eles descobrem, entre outras coisas, que uma ascensão consistente da confiança correlaciona-se fortemente com a correção da resposta final. Em vários benchmarks de raciocínio, a adição de RLVR com métodos PACR melhora a dinâmica de treinamento e o desempenho final.
O Fim da Decodificação Manual: Rumo a Modelos de Linguagem Verdadeiramente de Ponta a Ponta Este artigo propõe o AutoDeco, uma arquitetura que cria um modelo de linguagem "de ponta a ponta" capaz de controlar seu próprio processo de decodificação. Eles aumentam o transformador com cabeçotes de previsão.
As cabeças AutoDeco utilizam o estado oculto atual do modelo para prever dinamicamente os parâmetros de amostragem ótimos para o próximo token. Elas lançam cabeças AutoDeco para Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 e GPT-OSS-120 e validam com vários outros modelos.
Escalando o Raciocínio Latente através de Modelos de Linguagem em Loop Este artigo tem como objetivo explorar o comportamento de escalonamento do LoopLM em vários aspectos. Eles desenvolvem objetivos inovadores para treinar uma computação recorrente eficiente, mantendo o desempenho máximo.
Eles treinam dois modelos, LoopLMs com 1,4B e 2,6B parâmetros em 7,7T tokens que igualam o desempenho de transformadores padrão de 4B e 8B em quase todos os benchmarks, alcançando melhorias de eficiência de parâmetros de 2-3×. Eles também exploram as razões pelas quais os transformadores em loop são melhores.
O Decatlo de Ferramentas: Avaliação de Agentes Linguísticos para Execução de Tarefas Diversas, Realistas e de Longo Prazo Apresenta um benchmark para avaliar agentes linguísticos. O TOOLATHLON é fundamentado em cenários realistas que requerem múltiplas aplicações.
O TOOLATHLON requer, em média, 4–6 horas de trabalho por um estudante de pós-graduação em pesquisa com especialização em CS. Sonnet 4.5, GPT-5 e Grok4 apresentam um bom desempenho. Eles observam diferenças significativas entre as taxas de sucesso Pass@3 e Passˆ3, indicando cobertura de capacidade, mas problemas de consistência.
Siga-nos @ritualdigest para mais informações sobre tudo relacionado a pesquisa em cripto x IA, e @ritualnet para saber mais sobre o que a Ritual está construindo.
3,92K