Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
recompensar @primeintellect de hacking
will brown repostou
Receita para pós-treinar o Qwen3 1.7B em um modelo DeepResearch
O que significa para algo pequeno pensar profundamente? Conheça Lucy, uma Qwen3-1.7B pós-treinada como um modelo DeepResearch baseado nos verificadores do @willccbb.
Recompensas baseadas em regras primárias:
- Responda corretamente
Verificamos se a resposta final contém literalmente a resposta da verdade. Essa correspondência de substring é barata e evita chamar um juiz LLM maior.
- Taxa de visita/pesquisa
Se o agente visitar pelo menos tantas páginas quanto emitir consultas de pesquisa, ele receberá ((visit_search_ratio - 1) / 4) ** 0,25. Se pesquisar mais do que visitar, a pontuação é -0,5.
Formato / Recompensas Anti Reward-Hacking:
- Sucesso na execução da ferramenta
Cada chamada de API que retorna sem um erro conta. A recompensa é (successful_calls * unique_tools_used) / total_call_attempts.
- Eficiência de pensamento
Uma penalidade normal distorcida centrada em 70 tokens desencoraja a cadeia de pensamento interminável entre as chamadas de ferramentas enquanto ainda permite tokens suficientes para o planejamento.
Foi assim que o Qwen3 1.7B aprendeu a pesquisar, visitar e sintetizar informações. Modelos pequenos também podem fazer pesquisas profundas!
37,18K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável