En son Olmo modelini paylaşmaktan heyecan duyuyorum: Olmo Hybrid. Bu, tam dikkatle 3:1 oranında kapalı delta net (GDN) katmanlarına sahip bir modeldir. Qwen 3.5 ve Kimi Linear gibi birçok başka gelişmeyi takip ediyor. Tamamen açık bir model yayınlamak inanılmaz bir zamanlama, böylece insanlar bu mimari değişikliklerin tam yığını nasıl etkilediğini inceleyebilir. Kişisel olarak, eğitim sonrası süreci yürütürken çok şey öğrendim. Ön eğitim için veriler aynı olsa da, eğitim sonrası çok farklı! Özellikle, bu yeni mimariler için OSS araçları gerçekten sınırlı. Yeni mimariler, standart transformatörlere veya DeepSeek MoE'ler gibi popüler modellere göre çok daha yavaştır. Bu, verimli ve açık modellerin sınırlarını zorlamak için birlikte yapabileceğimiz bir çalışmadır. Bu çalışmaya @lambdaviking @tyleraromero ve diğerleri öncülük etti. Eğitim sonrası çalışmalarda daha küçük bir rol oynadım, çok eğlenceli bir proje! Bunun neden önemli olduğunu ve hibrit modellerin Mamba çok popüler olduğu birkaç yıl önce çalışmadığını açıklayan bir blog yazısı yazdım. Ayrıca, bu makale modern derin öğrenme / dil modelleme ölçekleme teorisi için harika bir giriş noktasıdır. Keyfini çıkarın ve geri bildirim gönderin!
@interconnectsai Bu proje için hesaplama çalışmalarının büyük kısmı @LambdaAPI tarafından sağlandı. Onsuz bu Olmo Hybrid olmazdı, açık topluluğa verdiğiniz destek için teşekkürler.
48