Estou entusiasmado por partilhar o mais recente modelo Olmo: Olmo Hybrid. Este é um modelo com camadas de gated delta net (GDN) numa proporção de 3:1 com atenção total. Segue muitos outros desenvolvimentos como o Qwen 3.5 e o Kimi Linear. É um momento incrível para lançar um modelo totalmente aberto para que as pessoas possam estudar como estas mudanças de arquitetura impactam toda a pilha. Pessoalmente, aprendi muito ao fazer o trabalho de pós-treinamento. Mesmo com os dados sendo idênticos para o pré-treinamento, o pós-treinamento é muito diferente! Em particular, as ferramentas OSS para estas novas arquiteturas são realmente limitadas. Novas arquiteturas são muito mais lentas do que transformadores padrão ou modelos populares como os DeepSeek MoEs. Este é um trabalho que podemos fazer juntos para continuar a avançar na fronteira de modelos eficientes e abertos. Este trabalho foi liderado por @lambdaviking @tyleraromero e outros. Tive a oportunidade de desempenhar um papel menor na realização do trabalho de pós-treinamento, um projeto super divertido! Escrevi um post no blog que explica por que isso é importante e por que os modelos híbridos não funcionaram há alguns anos, quando o Mamba era super popular. Além disso, este artigo é um ótimo ponto de entrada para a teoria de escalonamento de aprendizado profundo/modelagem de linguagem moderna. Aproveitem e enviem feedback!
@interconnectsai Grande parte do processamento para este projeto foi fornecido pela @LambdaAPI. Sem isso, este Olmo Hybrid não existiria, obrigado pelo apoio da comunidade aberta.
53