OpenAI'nin meydan okuması için 13.000 adımdan 500'ü için hızlı 71 deney yaptım 1. Uzmanların Karışımı kesinlikle KAZANANDIR (Küçük LLM'ler için böyle olmaması için çok şaşırtıcı) > Uzman sayısı en önemli şey. 4 (en iyi) > 3 >> 2. 2. UNTIED Gömülemeler çalışıyor, bağlılar felaket 3. Derinlik Devrimi - ÇIKMAZ SOKAK İçgörüler: 1. 4-uzman MOE + sızıntılı ReLU -> -0.048 BPB, net kazanan 2. Bağlanmamış çarpanma gömülmeleri (bn128) -> -0.031 BPB, MOE ile birleştirilmeye değer 3. MOE + QAT kombinasyonu -> sunum için kuantize edilmiş kaliteyi korur çıkmaz noktalar 1. Derinlik konvolüsyonu -> her varyant acıtıyorsa, daha büyük çekirdekler daha çok acıtıyor 2. Bağlı çarpanma gömülmeler -> özellikle küçük darboğazlarda felaketçidir. 3. Kilo paylaşımı -> kalite açısından MOE ile rekabet etmez 4. Konv + herhangi bir şey kombinasyonları — hasarı artırır Sonraki Adımlar 1. MOE 4e + sızıntıyı 2000-5000 adımda doğrulayın, birden fazla tohum 2. Test MOE 4e + leaky + unsolided bn128 — en büyük iki galibiyet üst üste gelebilir 3. En iyi kombonun tam koşu (13780 adım) ve 1.2244 BPB liderlik tablosunu geçip geçmeyeceğini görmek 71 deney, 3 GPU, ~500 adım. Vuk Rosić...