Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
@AMD ve @IBM ile iş birliği içinde, @ZyphraAI ZAYA1 tabanını paylaşıyoruz! Entegre AMD donanım, yazılım ve ağ yığınına sahip ilk büyük ölçekli model. ZAYA1, 760M aktif ve toplam 8.3B parametre sahip Zyphra'nın yenilikçi MoE mimarisini kullanıyor.
Aşağıda teknoloji makalesi ve daha fazlası👇

PR:
Teknik Blog:
Teknik Makale:
Sarılma Yüz:
Mimari olarak, ZAYA1 bizim "MoE++" tarifimizi takip ediyor:
- Sıkıştırılmış Konvolüsyon Dikkat (CCA) []
- Yeni ZAYA1 yönlendirici
- Öğrenilen kapılarla katman başına kalıntı ölçeklendirme
Bunlar, standart MoE'ye göre daha iyi ölçeklendirme eğrileri (FLOP ve parametre başı) sağlar.

ZAYA1 yönlendiricisi, geleneksel lineer yönlendiricilerin yerini şu özelliklerle kullanır:
- Downprojects kalıntı akışı
- Katmanlar arasında bilgiyi karıştırmak için Üstel Derinlik Ortalaması (EDA) uygular
- Uzman başına 3 katmanlı MLP
- Uzmanları hem meşgul hem de uzman tutmak için kontrol teorisinden ilham alan bir dengeleme şeması kullanır
Eğitim tarifi:
- Toplam 14T jeton
- 3 aşama: web ağırlıklı ön eğitim → matematik/kod/yapısal ağırlıklı faz → uzun bağlam + akıl yürütme ortasında
- Müfredat, zamanla yoğun STEM + akıl yürütme verilerine kayıyor
- 4k → 32k'dan bağlam paralel CCA ile bağlam genişletmesi

@IBMcloud tarafından barındırılan kümemiz, her biri şunları içeren 128 hesaplama düğümünden oluşur:
- 8 MI300X GPU InfinityFabric ile birbirine bağlı
- 8 Pollara 400Gbps düğümler arası bağlantılar
- 2 Intel Xeon Platinum 8570 CPU'ları
Düğümler, yalnızca raylara ait iki seviyeli bir topolojide birbirine bağlıdır.

Eğitim süresini azaltmak için ortak tasarım yaptık:
- RMSNorm için çekirdekler + Muon'un Newton-Schulz yinelemesi
- Aegis, yüksek çalışma süresi için otomatik arıza toleransı sistemimiz
- Dağıtık kontrol noktası ve yeniden şekillendirme
- CP ve dağıtılmış Muon için yeni paralellik şemaları

ZAYA1 tabanı, benzer modellere kıyasla güçlü performans göstererek sonraki eğitim sonrası için güçlü bir temel model oluşturuyor.

Sadece 760M aktif parametrelere rağmen, ZAYA1-base Llama-3-8B gibi yoğun modelleri geride bırakır ve matematik ile kodlama benchmarklarında Qwen3-4B ve Gemma3-12B ile rekabet eder. Yüksek pass@k ortamlarında, temel model özel akıl yürütme modellerinin performansına yaklaşır.

64,42K
En İyiler
Sıralama
Takip Listesi

