Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Senang membagikan model Olmo terbaru: Olmo Hybrid. Ini adalah model dengan lapisan gated delta net (GDN) dalam rasio 3:1 dengan perhatian penuh. Ini mengikuti banyak perkembangan lain seperti Qwen 3.5 dan Kimi Linear. Ini adalah waktu yang luar biasa untuk merilis model yang sepenuhnya terbuka sehingga orang dapat mempelajari bagaimana perubahan arsitektur ini memengaruhi tumpukan penuh.
Secara pribadi, saya belajar banyak dalam membuat pasca-pelatihan berhasil. Bahkan dengan data yang identik untuk prapelatihan, pasca-pelatihan sangat berbeda! Secara khusus, alat OSS untuk arsitektur baru ini sangat terbatas. Arsitektur baru jauh lebih lambat daripada trafo standar atau model populer seperti DeepSeek MoE. Ini adalah pekerjaan yang dapat kita lakukan bersama untuk terus mendorong batas model yang efisien dan terbuka.
Pekerjaan ini dipimpin oleh @lambdaviking @tyleraromero dan lainnya. Saya harus memainkan peran yang lebih kecil dalam membuat pekerjaan pasca-pelatihan, proyek yang sangat menyenangkan!
Saya telah menulis posting blog yang menjelaskan mengapa ini penting dan model hibrida tidak berfungsi beberapa tahun yang lalu ketika Mamba sangat populer. Plus, makalah ini adalah titik masuk yang bagus untuk teori penskalaan pembelajaran mendalam / pemodelan bahasa modern. Nikmati dan kirim umpan balik!

@interconnectsai Sebagian besar komputasi untuk proyek ini disediakan oleh @LambdaAPI. Tanpa itu, Olmo Hybrid ini tidak akan ada, terima kasih atas dukungan dari komunitas terbuka.
50
Teratas
Peringkat
Favorit
