Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Nagroda za hakowanie @primeintellect
Użytkownik will brown udostępnił ponownie
Przepis na post-trening Qwen3 1.7B w modelu DeepResearch
Co to znaczy, że coś małego myśli głęboko? Poznaj Lucy, post-trenowany model Qwen3-1.7B jako model DeepResearch oparty na weryfikatorach @willccbb.
Podstawowe nagrody oparte na regułach:
- Poprawność odpowiedzi
Sprawdzamy, czy ostateczna odpowiedź dosłownie zawiera prawdziwą odpowiedź. To dopasowanie podciągu jest tanie i unika wywoływania większego sędziującego LLM.
- Stosunek wizyt/wyszukiwań
Jeśli agent odwiedza co najmniej tyle stron, ile wydaje zapytań wyszukiwania, otrzymuje ((visit_search_ratio - 1) / 4) ** 0.25. Jeśli wyszukuje więcej niż odwiedza, wynik wynosi -0.5.
Format / Nagrody przeciwko oszustwom:
- Sukces wykonania narzędzia
Każde wywołanie API, które zwraca wynik bez błędu, się liczy. Nagroda to (successful_calls * unique_tools_used) / total_call_attempts.
- Efektywność myślenia
Kara w postaci rozkładu skośnego, skoncentrowana na 70 tokenach, zniechęca do niekończącego się łańcucha myślenia między wywołaniami narzędzi, jednocześnie pozwalając na wystarczającą liczbę tokenów na planowanie.
W ten sposób Qwen3 1.7B nauczył się wyszukiwać, odwiedzać i syntetyzować informacje. Małe modele również mogą prowadzić głębokie badania!
39,07K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi