Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Atropos v0.3 a fost acum disponibil!
Cadrul nostru RL Environments a cunoscut o mulțime de actualizări de la v0.2 - câteva puncte importante:
- Atropos poate fi acum folosit ca cadru de benchmarking și evaluări de @rogershijin, cu primul nostru benchmark extern, Reward-Bench 2!
- S-a adăugat Reasoning Gym, un depozit de gimnastică de mediu extern portat în atropos cu peste 100 de sarcini de raționament de @neurosp1ke și prieteni
- @max_paperclips bootcamp de raționament integrat @intern_lm, adăugând 1000+ noi sarcini de raționament pentru RL
- @dmayhem93 inginerul șef al Atropos a adăugat zeci de remedieri de erori și alte îmbunătățiri de fiabilitate și compatibilitate, suport mai bun pentru mai multe medii și CI/CD
- Multe dintre mediile hackathon-ului Atropos au fost fuzionate în /environments/community - pentru a le enumera pe toate ar ocupa cea mai mare parte a spațiului de pe ecran, dar câteva puncte importante:
VR-CLI de @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, design de proteine de @hallerite, un mediu de rutare a modelelor de @gabinfay, multiple pe lean proving, arena catbot, pokemon showdown, poker, medici utili, poezie sanscrită de @khoomeik și multe altele!
- Alte medii noi notabile acceptate oficial includ:
Formatul răspunsului urmează mediul
Mediul Pydantic în JSON portat de la @MatternJustus de lucru
Instrucțiuni care urmează portate din munca lui @natolambert și @allen_ai
Numărarea literelor
- 47 de contribuitori noi!
Consultați jurnalul complet de modificări aici:

Teknium (e/λ)18 iul., 03:22
Tocmai am fuzionat un PR pentru un mediu care să îmbunătățească LLM ca judecător, precum și să evalueze modele în ceea ce privește capacitatea lor de a face judecăți!
Știați că toate mediile RL verificabile sunt aproape echivalente cu benchmark-urile (și invers!)? Așa că am adăugat o comandă de evaluare la baza lui Atropos și acum puteți rula benchmark-uri prin medii Atropos.
Am fost frustrați să lucrăm cu atât de multe cadre de referință care erau învechite sau inutilizabile, așa că am implementat modul de evaluare în Atropos, cadrul nostru de medii RL.
Așa că primul nostru port din afara mediilor noastre existente a fost @natolambert's Reward-Bench!
Notă: acceptă doar modele de recompensă generativă (judecători LLM obișnuiți) în acest moment.
Consultați PR-ul aici:

24,84K
Nous Research a repostat
A fost distractiv să lucrez cu echipa @huggingface pentru a transforma această caracteristică în realitate! Vă mulțumim pentru toată munca și creativitatea @pcuenq @reach_vb @julien_c @ariG23498 !
De asemenea, mulțumim @NousResearch @Teknium1 @Euclaise_ pentru că ați fost primii care au adoptat caietele personalizate și ați lucrat la asta cu noi!
31,36K
Am făcut câteva actualizări la API-ul nostru și la NousChat în ultimele săptămâni:
Accesul la API-ul nostru de inferență nu mai este în spatele unei liste de așteptare: utilizatorii noi au acces imediat
Hermes-3-Llama-3.1-405B este acum disponibil prin API (în plus față de Hermes-3-Llama-3.1-70B, DeepHermes-3-Llama-3-8B-Preview și DeepHermes-3-Mistral-24B-Preview)
Limitele de rată API au fost dublate (acum 100rpm și 80k tpm)
ȘI noua noastră experiență de chat se lansează la
Contul de chat este conectat la contul dvs., astfel încât creditele API să poată fi folosite pentru a interacționa cu chat-ul.

19,7K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante