DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Ik ben enthousiast om het nieuwste Olmo-model te delen: Olmo Hybrid. Dit is een model met gated delta net (GDN) lagen in een 3:1 verhouding met volledige aandacht. Het volgt veel andere ontwikkelingen zoals Qwen 3.5 en Kimi Linear. Het is een geweldig moment om een volledig open model uit te brengen, zodat mensen kunnen bestuderen hoe deze architectuurveranderingen de volledige stack beïnvloeden. Persoonlijk heb ik veel geleerd tijdens het maken van het post-training werk. Zelfs met de gegevens die identiek zijn voor pretraining, is post-training heel anders! In het bijzonder zijn de OSS-tools voor deze nieuwe architecturen echt beperkt. Nieuwe architecturen zijn veel langzamer dan standaard transformers of populaire modellen zoals DeepSeek MoEs. Dit is werk dat we samen kunnen doen om de grens van efficiënte, open modellen verder te verleggen. Dit werk werd geleid door @lambdaviking @tyleraromero en anderen. Ik heb een kleinere rol gespeeld in het maken van het post-training werk, super leuk project! Ik heb een blogpost geschreven die uitlegt waarom dit belangrijk is en waarom hybride modellen een paar jaar geleden niet werkten toen Mamba super populair was. Bovendien is dit paper een geweldige instap voor moderne deep learning / taalmodellering schalingstheorie. Geniet ervan en stuur feedback!

@interconnectsai Een groot deel van de rekenkracht voor dit project werd geleverd door @LambdaAPI. Zonder hen zou deze Olmo Hybrid niet bestaan, bedankt voor de ondersteuning van de open gemeenschap.

39

Boven

Positie

Favorieten