Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Atropos v0.3 je nyní venku!
Náš framework RL Environments prošel od verze 0.2 mnoha vylepšeními - některé přednosti:
- Atropos může být nyní použit jako rámec pro benchmarking a hodnocení společností @rogershijin, s naším prvním externím benchmarkem, Reward-Bench 2!
- Přidán Reasoning Gym, repo posilovny pro externí prostředí portované do atropos s více než 100 úlohami uvažování od @neurosp1ke a přátel
- @max_paperclips integrovaný bootcamp uvažování @intern_lm, který přidává 1000+ nových úkolů pro RL
- @dmayhem93 hlavní inženýr Atroposu přidal desítky oprav chyb a další vylepšení spolehlivosti a kompatibility, lepší podporu pro multi-environment a CI/CD
- Mnoho prostředí hackathonu Atropos bylo sloučeno do /environments/community - jejich seznam by zabral většinu místa na obrazovce, ale některé zajímavosti:
VR-CLI od @JakeABoggs, Filozofie RLAIF, Adaptivní učitelé LLM, WebVoyager, design proteinů od @hallerite, modelové směrovací prostředí od @gabinfay, více na štíhlé dokazování, catbot aréna, pokémon showdown, poker, užitečné doktory, sanskrtská poezie od @khoomeik a mnoho dalšího!
- Mezi další pozoruhodná oficiálně podporovaná nová prostředí patří:
Formát odpovědi podle prostředí
Prostředí Pydantic do JSON portované z @MatternJustus práce
Následující instrukce převzaté z práce @natolambert a @allen_ai
Počítání dopisů
- 47 zbrusu nových přispěvatelů!
Podívejte se na kompletní changelog zde:

Teknium (e/λ)18. 7. 03:22
Právě jsem sloučil PR pro prostředí pro zlepšení LLM jako soudce a také hodnocení modelů na jejich schopnosti dělat úsudky!
Věděli jste, že všechna ověřitelná prostředí RL jsou téměř ekvivalentní benchmarkům (a naopak!)? Proto jsme do základu Atroposu přidali příkaz evaluate a nyní můžete spouštět benchmarky v prostředích Atropos.
Byli jsme frustrovaní z práce s tolika benchmarkovými frameworky, které byly zastaralé nebo nepoužitelné, a tak jsme implementovali režim pouze pro vyhodnocení do Atroposu, našeho frameworku RL prostředí.
Takže náš první port mimo naše stávající prostředí byl @natolambert's Reward-Bench!
Poznámka: v současné době podporuje pouze modely generativních odměn (běžné porotce LLM).
Podívejte se na PR zde:

24,84K
Nous Research repostoval/a
Byla zábava spolupracovat s týmem @huggingface na tom, aby se tato funkce stala realitou! Díky za veškerou vaši práci a kreativitu @pcuenq @reach_vb @julien_c @ariG23498 !
Také díky @NousResearch @Teknium1 @Euclaise_ za to, že jste si jako první osvojili vlastní modely notebooků a pracujete na tom s námi!
31,36K
V posledních několika týdnech jsme provedli několik aktualizací našeho API a NousChatu:
Přístup k našemu Inference API již není na čekací listině: noví uživatelé získají okamžitý přístup
Hermes-3-Llama-3.1-405B je nyní k dispozici prostřednictvím rozhraní API (kromě Hermes-3-Llama-3.1-70B, DeepHermes-3-Llama-3-8B-Preview a DeepHermes-3-Mistral-24B-Preview)
Limity rychlosti API byly zdvojnásobeny (nyní 100rpm a 80k tpm)
A naše nové prostředí chatu zavádíme na adrese
Váš chatovací účet je propojen s vaším účtem na adrese, takže vaše kredity API lze použít k interakci s chatem.

19,69K
Nous Research repostoval/a
Nakonec jsem dokončil a sloučil SWE_RL prostředí, které bylo popsáno v článku SWE RL společnosti Meta, do Atropos - Opravdu obtížné prostředí, které může model naučit být mnohem lepším kódovacím agentem!
Podívejte se na PR:
Podívejte se na dokument SWE-RL společnosti Meta:

11,71K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější