Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Beloon hacking @primeintellect
will brown heeft opnieuw gepost
Recept om Qwen3 1.7B post-train te zetten in een DeepResearch-model
Wat betekent het voor iets kleins om diep na te denken? Maak kennis met Lucy, een post-getrainde Qwen3-1.7B als een DeepResearch-model gebaseerd op de verifiers van @willccbb.
Primaire Regel-gebaseerde Beloningen:
- Correctheid van antwoorden
We controleren of de uiteindelijke reactie letterlijk het juiste antwoord bevat. Deze substring-match is goedkoop en voorkomt dat een grotere LLM als beoordelaar moet worden ingeschakeld.
- Bezoek/zoekratio
Als de agent minstens zoveel pagina's bezoekt als dat hij zoekopdrachten uitvoert, ontvangt hij ((bezoek_zoek_ratio - 1) / 4) ** 0.25. Als hij meer zoekt dan hij bezoekt, is de score -0.5.
Formaat / Anti Beloning-Hacking Beloningen:
- Succes van tooluitvoering
Elke API-aanroep die zonder fout terugkomt, telt. De beloning is (succesvolle_oproepen * unieke_tools_gebruikt) / totale_oproep_pogingen.
- Denk efficiëntie
Een scheef-normale straf gecentreerd op 70 tokens ontmoedigt eindeloze ketens van gedachten tussen het aanroepen van tools, terwijl er nog steeds genoeg tokens voor planning overblijven.
Dit is hoe Qwen3 1.7B leerde zoeken, bezoeken en informatie synthetiseren. Kleine modellen kunnen ook diepgaand onderzoek doen!
37,76K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste