Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
recompensa hacking @primeintellect
will brown republicou
Receita para treinar o Qwen3 1.7B em um modelo DeepResearch
O que significa algo pequeno pensar profundamente? Conheça Lucy, um Qwen3‑1.7B pós-treinado como um modelo DeepResearch baseado nos verificadores de @willccbb.
Recompensas Primárias Baseadas em Regras:
- Correção da resposta
Verificamos se a resposta final contém literalmente a resposta correta. Essa correspondência de substring é barata e evita chamar um juiz LLM maior.
- Razão de visita/pesquisa
Se o agente visita pelo menos tantas páginas quanto emite consultas de pesquisa, ele recebe ((visit_search_ratio - 1) / 4) ** 0.25. Se ele pesquisa mais do que visita, a pontuação é -0.5.
Formato / Recompensas Anti-Hacking:
- Sucesso na execução de ferramentas
Cada chamada de API que retorna sem erro conta. A recompensa é (successful_calls * unique_tools_used) / total_call_attempts.
- Eficiência de pensamento
Uma penalidade assimétrica centrada em 70 tokens desencoraja uma cadeia interminável de pensamentos entre chamadas de ferramentas, enquanto ainda permite tokens suficientes para planejamento.
É assim que o Qwen3 1.7B aprendeu a pesquisar, visitar e sintetizar informações. Modelos pequenos também podem fazer pesquisas profundas!
37,18K
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável