Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Atropos v0.3 is nu uit!
Ons RL Environments-framework heeft veel upgrades ondergaan sinds v0.2 - enkele hoogtepunten:
- Atropos kan nu worden gebruikt als een benchmark- en evaluatiekader door @rogershijin, met onze eerste externe benchmark, Reward-Bench 2!
- De Reasoning Gym is toegevoegd, een externe omgeving gym repo die is overgezet naar Atropos met meer dan 100 redeneertaken door @neurosp1ke en vrienden.
- @max_paperclips heeft de redeneerbootcamp van @intern_lm geïntegreerd, met meer dan 1000 nieuwe redeneertaken voor RL.
- @dmayhem93, de hoofdingenieur van Atropos, heeft tientallen bugfixes en andere verbeteringen in betrouwbaarheid en compatibiliteit toegevoegd, betere ondersteuning voor meerdere omgevingen en CI/CD.
- Veel van de Atropos hackathon-omgevingen zijn samengevoegd in /environments/community - om ze allemaal op te sommen zou de meeste schermruimte in beslag nemen, maar enkele hoogtepunten:
VR-CLI door @JakeABoggs, Filosofie RLAIF, Adaptieve LLM-docenten, WebVoyager, eiwitontwerp door @hallerite, een modelrouteringsomgeving door @gabinfay, meerdere op lean bewijzen, de catbot-arena, pokemon showdown, poker, behulpzame dokters, sanskritpoëzie door @khoomeik en nog veel meer!
- Andere opmerkelijke officieel ondersteunde nieuwe omgevingen zijn:
Antwoordformaat volgens omgeving
Pydantic naar JSON omgeving overgezet van het werk van @MatternJustus
Instructievolging overgezet van het werk van @natolambert en @allen_ai
Lettertelling
- 47 gloednieuwe bijdragers!
Bekijk hier de complete changelog:

Teknium (e/λ)18 jul, 03:22
Ik heb zojuist een PR samengevoegd voor een omgeving om LLM te verbeteren als rechter en om modellen te evalueren op hun vermogen om oordelen te vellen!
Wist je dat alle verifieerbare RL-omgevingen bijna gelijkwaardig zijn aan benchmarks (en vice versa!)? Dus we hebben een evalueercommando toegevoegd aan de basis van Atropos en nu kun je benchmarks uitvoeren via Atropos-omgevingen.
We raakten gefrustreerd door het werken met zoveel verouderde of onbruikbare benchmarkframeworks, dus hebben we een evaluatiemodus zonder evaluatie geïmplementeerd in Atropos, ons RL-omgevingenframework.
Dus onze eerste poort van buiten onze bestaande omgevingen was @natolambert's Reward-Bench!
Opmerking: het ondersteunt op dit moment alleen generatieve beloningsmodellen (gewone LLM-rechters).
Bekijk de PR hier:

24,81K
Nous Research heeft opnieuw gepost
Het was leuk om met het @huggingface team samen te werken om deze functie te realiseren! Bedankt voor al je werk en creativiteit @pcuenq @reach_vb @julien_c @ariG23498 !
Ook dank aan @NousResearch @Teknium1 @Euclaise_ voor het feit dat ze early adopters zijn van op maat gemaakte modellen notebooks en hier samen met ons aan werken!
31,35K
We hebben de afgelopen weken een aantal updates doorgevoerd in onze API en NousChat:
Toegang tot onze Inference API staat niet langer achter een wachtlijst: nieuwe gebruikers krijgen direct toegang
Hermes-3-Llama-3.1-405B is nu beschikbaar via de API (naast Hermes-3-Llama-3.1-70B, DeepHermes-3-Llama-3-8B-Preview en DeepHermes-3-Mistral-24B-Preview)
API-snelheidslimieten zijn verdubbeld (nu 100 tpm en 80k tpm)
EN onze nieuwe chatervaring wordt uitgerold op
Je chataccount daar is gekoppeld aan je account, zodat je API-credits kunnen worden gebruikt om met chat te communiceren.

19,66K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste