Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Récompense Piratage @primeintellect
will brown a reposté
Recette pour post-entraîner Qwen3 1.7B en un modèle DeepResearch
Que signifie pour quelque chose de petit de penser profondément ? Rencontrez Lucy, un Qwen3-1.7B post-entrainé en tant que modèle DeepResearch basé sur les vérificateurs de @willccbb.
Règles de récompense basées sur des règles principales :
- Exactitude des réponses
Nous vérifions si la réponse finale contient littéralement la réponse de vérité. Cette correspondance de sous-chaîne est peu coûteuse et évite d'appeler un LLM plus grand pour juger.
- Ratio de visites/recherches
Si l'agent visite au moins autant de pages qu'il émet de requêtes de recherche, il reçoit ((visit_search_ratio - 1) / 4) ** 0.25. S'il recherche plus qu'il ne visite, le score est de -0.5.
Format / Récompenses anti-hacking de récompense :
- Succès de l'exécution des outils
Chaque appel API qui retourne sans erreur compte. La récompense est (successful_calls * unique_tools_used) / total_call_attempts.
- Efficacité de la pensée
Une pénalité skew-normale centrée à 70 tokens décourage les chaînes de pensée sans fin entre les appels d'outils tout en permettant encore suffisamment de tokens pour la planification.
C'est ainsi que Qwen3 1.7B a appris à rechercher, visiter et synthétiser des informations. Les petits modèles peuvent aussi faire des recherches approfondies !
37,18K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables