Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
belønning hacking @primeintellect
will brown lagt ut på nytt
Oppskrift for å ettertrene Qwen3 1.7B til en DeepResearch-modell
Hva betyr det for noe lite å tenke dypt? Møt Lucy, en ettertrent Qwen3-1.7B som en DeepResearch-modell basert på @willccbb s verifikatorer.
Primære regelbaserte belønninger:
- Svarets riktighet
Vi sjekker om det endelige svaret bokstavelig talt inneholder det grunnleggende sannhetssvaret. Denne understrengskampen er billig og unngår å ringe en større LLM-dommer.
- Besøk/søk-forhold
Hvis agenten besøker minst like mange sider som den sender ut søk, mottar den ((visit_search_ratio - 1) / 4) ** 0,25. Hvis den søker mer enn den besøker, er poengsummen -0,5.
Format / Anti Reward-Hacking-belønninger:
- Vellykket utførelse av verktøy
Hvert API-kall som returnerer uten feil, teller. Belønningen er (successful_calls * unique_tools_used) / total_call_attempts.
- Tenke effektivitet
En skjev normal straff sentrert på 70 tokens motvirker endeløs tankekjede mellom verktøykall, samtidig som det tillater nok tokens for planlegging.
Slik lærte Qwen3 1.7B å søke, besøke og syntetisere informasjon. Små modeller kan også gjøre dyp forskning!
34,79K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til