Sono entusiasta di condividere il nuovo modello Olmo: Olmo Hybrid. Questo è un modello con strati gated delta net (GDN) in un rapporto di 3:1 con attenzione completa. Segue molti altri sviluppi come Qwen 3.5 e Kimi Linear. È un momento incredibile per rilasciare un modello completamente aperto così che le persone possano studiare come questi cambiamenti architettonici impattino l'intero stack. Personalmente, ho imparato molto nel realizzare il lavoro di post-addestramento. Anche se i dati sono identici per l'addestramento preliminare, il post-addestramento è molto diverso! In particolare, gli strumenti OSS per queste nuove architetture sono davvero limitati. Le nuove architetture sono molto più lente rispetto ai trasformatori standard o ai modelli popolari come DeepSeek MoEs. Questo è un lavoro che possiamo fare insieme per continuare a spingere i confini dei modelli efficienti e aperti. Questo lavoro è stato guidato da @lambdaviking @tyleraromero e altri. Ho avuto la possibilità di partecipare in una parte più piccola nel realizzare il lavoro di post-addestramento, un progetto super divertente! Ho scritto un post sul blog che spiega perché questo è importante e perché i modelli ibridi non funzionavano alcuni anni fa quando Mamba era super popolare. Inoltre, questo documento è un ottimo punto di ingresso per la teoria della scalabilità del deep learning moderno / modellazione del linguaggio. Buon divertimento e inviate feedback!
@interconnectsai Gran parte del calcolo per questo progetto è stata fornita da @LambdaAPI. Senza di essa, questo Olmo Hybrid non esisterebbe, grazie per il supporto alla comunità aperta.
65