S nadšením se podělíme o nejnovější model Olmo: Olmo Hybrid. Toto je model s gated delta net (GDN) vrstvami v poměru 3:1 s plnou pozorností. Následuje mnoho dalších vývojů jako Qwen 3.5 a Kimi Linear. Je to neuvěřitelné načasování vydat plně otevřený model, aby lidé mohli studovat, jak tyto změny architektury ovlivňují full stack. Osobně jsem se hodně naučil tím, jak zvládat post-školení. I když jsou data pro předškolení stejná, po tréninku je to úplně jiné! Zejména nástroje OSS pro tyto nové architektury jsou opravdu omezené. Nové architektury jsou mnohem pomalejší než standardní transformátory nebo populární modely jako DeepSeek MoE. To je práce, kterou můžeme společně dělat, abychom posouvali hranice efektivních, otevřených modelů. Tuto práci vedli @lambdaviking @tyleraromero a další. Měl jsem menší podíl na tvorbě práce po školení, super zábavný projekt! Napsal jsem blogový příspěvek, který vysvětluje, proč na tom záleží, a hybridní modely před pár lety, kdy byla Mamba velmi populární, nefungovaly. Navíc je tento článek skvělým vstupním bodem do moderní teorie škálování hlubokého učení / modelování jazyků. Užijte si to a posílejte zpětnou vazbu!
@interconnectsai Velkou část výpočetní kapacity pro tento projekt poskytovala @LambdaAPI. Bez něj by tento Olmo Hybrid neexistoval, děkuji za podporu otevřené komunity.
44