Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI. Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.
Critique-RL: Modelos de linguagem de treinamento para crítica por meio de aprendizado por reforço em dois estágios Este artigo tem como objetivo desenvolver modelos de linguagem críticos que não dependam de supervisão mais forte ou de uma função de recompensa de oráculo durante o teste.
Eles propõem o Critique-RL, uma abordagem de RL de 2 estágios, uma abordagem de RL online baseada na interação ator-crítico para o desenvolvimento de modelos de crítica. Experimentos extensivos mostram que o método supera as linhas de base, produzindo melhor desempenho com o Qwen 2.5 7B.
PACR: Recompensa de Confiança Progressivamente Ascendente para o Raciocínio LLM Este trabalho pergunta se a supervisão passo a passo pode ser obtida a partir do modelo. Eles introduzem o PACR, um sinal denso e intrínseco ao modelo que converte o crescimento da confiança em supervisão gradual para RL.
Eles descobrem, entre outras coisas, que um aumento consistente da confiança se correlaciona fortemente com a exatidão da resposta final. Em vários benchmarks de raciocínio, aumentar o RLVR com métodos PACR melhora a dinâmica do treinamento e o desempenho final.
O fim da decodificação manual: rumo a modelos de linguagem verdadeiramente de ponta a ponta Este artigo propõe o AutoDeco, uma arquitetura que cria um LM "end-to-end" capaz de controlar seu próprio processo de decodificação. Eles aumentam o transformador com cabeças de previsão.
Os cabeçotes AutoDeco utilizam o estado oculto atual do modelo para prever dinamicamente os parâmetros de amostragem ideais para o próximo token. Eles lançam cabeçotes AutoDeco para Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 e GPT-OSS-120 e validam com vários outros modelos.
Escalonamento do raciocínio latente por meio de modelos de linguagem em loop Este artigo tem como objetivo explorar o comportamento de escala do LoopLM em vários aspectos. Eles desenvolvem novos objetivos para treinar computação recorrente eficiente, mantendo o desempenho máximo.
Eles treinam dois modelos, LoopLMs de parâmetros de 1,4B e 2,6B em tokens de 7,7T que correspondem ao desempenho dos transformadores padrão 4B e 8B em quase todos os benchmarks, alcançando melhorias de eficiência de parâmetros de 2 a 3×. Eles também exploram as razões pelas quais os transformadores em loop são melhores.
A ferramenta Decathlon: Benchmarking de agentes de linguagem para execução de tarefas diversas, realistas e de longo horizonte Apresenta um parâmetro de comparação para avaliar agentes de linguagem. O TOOLATHLON é baseado em cenários realistas que exigem vários aplicativos.
O TOOLATHLON requer, em média, 4 a 6 horas de trabalho de um estudante de pós-graduação em ciência da computação. Sonnet 4.5, GPT-5 e Grok4 têm um bom desempenho. Eles observam diferenças significativas entre as taxas de sucesso Pass@3 e Passˆ3, indicando cobertura de capacidade, mas problemas de consistência.
Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e @ritualnet para saber mais sobre o que a Ritual está construindo.
3,92K