Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Ricompensa Hacking @primeintellect
will brown ha ripubblicato
Ricetta per addestrare Qwen3 1.7B in un modello DeepResearch
Cosa significa per qualcosa di piccolo pensare in profondità? Incontra Lucy, un Qwen3-1.7B post-addestrato come modello DeepResearch basato sui verificatori di @willccbb.
Regole principali per le ricompense basate su regole:
- Correttezza della risposta
Controlliamo se la risposta finale contiene letteralmente la risposta corretta. Questo confronto di sottostringhe è economico e evita di chiamare un giudice LLM più grande.
- Rapporto visite/ricerche
Se l'agente visita almeno tante pagine quante ne emette di ricerche, riceve ((rapporto_visite_ricerche - 1) / 4) ** 0.25. Se cerca più di quanto visiti, il punteggio è -0.5.
Formato / Ricompense Anti-Hacking:
- Successo nell'esecuzione degli strumenti
Ogni chiamata API che restituisce senza errore conta. La ricompensa è (chiamate_successose * strumenti_unici_utilizzati) / tentativi_totali_di_chiamata.
- Efficienza del pensiero
Una penalità skew-normale centrata su 70 token scoraggia una catena di pensieri infinita tra le chiamate agli strumenti, pur consentendo abbastanza token per la pianificazione.
Questo è come Qwen3 1.7B ha imparato a cercare, visitare e sintetizzare informazioni. Anche i modelli piccoli possono fare ricerche approfondite!
36,76K
è ancora pazzesco per me quanto sia cambiata completamente la mia vita nell'ultimo anno. La scorsa estate avevo appena finito un dottorato in teoria della CS, ero passato da stagista in banca a lavoratore a tempo pieno in banca, e avevo appena raggiunto 1000 follower qui. Ieri sono stato riconosciuto da qualcuno sul mio volo.
54,3K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari