Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
recompensa el hackeo @primeintellect
will brown republicó
Receta para post-entrenar Qwen3 1.7B en un modelo DeepResearch
¿Qué significa que algo pequeño piense profundamente? Conoce a Lucy, un Qwen3-1.7B post-entrenado como un modelo DeepResearch basado en los verificadores de @willccbb.
Reglas Primarias Basadas en Recompensas:
- Corrección de respuestas
Verificamos si la respuesta final contiene literalmente la respuesta correcta. Esta coincidencia de subcadenas es económica y evita llamar a un juez LLM más grande.
- Ratio de visitas/búsquedas
Si el agente visita al menos tantas páginas como emite consultas de búsqueda, recibe ((visit_search_ratio - 1) / 4) ** 0.25. Si busca más de lo que visita, la puntuación es -0.5.
Formato / Recompensas Anti-Hacking de Recompensas:
- Éxito en la ejecución de herramientas
Cada llamada a la API que devuelve sin error cuenta. La recompensa es (successful_calls * unique_tools_used) / total_call_attempts.
- Eficiencia de pensamiento
Una penalización sesgada-normal centrada en 70 tokens desincentiva una cadena de pensamiento interminable entre llamadas a herramientas, mientras que aún permite suficientes tokens para la planificación.
Así es como Qwen3 1.7B aprendió a buscar, visitar y sintetizar información. ¡Los modelos pequeños también pueden hacer investigaciones profundas!
37,76K
Parte superior
Clasificación
Favoritos
En tendencia on-chain
En tendencia en X
Principales fondos recientes
Más destacado