Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Hackear @primeintellect de recompensa
will brown reposteó
Receta para posentrenar Qwen3 1.7B en un modelo de DeepResearch
¿Qué significa que algo pequeño piense profundamente? Conozca a Lucy, un Qwen3-1.7B post-entrenado como modelo de DeepResearch basado en los verificadores de @willccbb.
Recompensas primarias basadas en reglas:
- Corrección de la respuesta
Verificamos si la respuesta final contiene literalmente la respuesta de la verdad fundamental. Esta coincidencia de subcadenas es barata y evita llamar a un juez de LLM más grande.
- Ratio visita/búsqueda
Si el agente visita al menos tantas páginas como consultas de búsqueda, recibe ((visit_search_ratio - 1) / 4) ** 0,25. Si busca más de lo que visita, la puntuación es -0,5.
Formato / Recompensas contra la piratería de recompensas:
- Éxito en la ejecución de la herramienta
Cada llamada a la API que se devuelve sin un error cuenta. La recompensa es (successful_calls * unique_tools_used) / total_call_attempts.
- Eficiencia de pensamiento
Una penalización sesgada normal centrada en 70 fichas desalienta la interminable cadena de pensamiento entre la llamada de herramientas y al mismo tiempo permite suficientes fichas para la planificación.
Así es como Qwen3 1.7B aprendió a buscar, visitar y sintetizar información. ¡Los modelos pequeños también pueden hacer una investigación profunda!
37.17K
Todavía me parece una locura lo mucho que mi vida ha cambiado totalmente en el último año. el verano pasado acababa de terminar un doctorado en teoría de CS, me convertí de pasante bancario a banquero a tiempo completo y acababa de alcanzar los 1000 seguidores aquí. Ayer alguien me reconoció en mi vuelo
54.31K
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas