Ve spolupráci s @AMD a @IBM @ZyphraAI sdílíme ZAYA1-base! První velkoplošný model na integrovaném hardwarovém, softwarovém a síťovém stacku AMD. ZAYA1 využívá novou architekturu MoE od Zyphry s 760M aktivními a 8,3B celkovými parametry. Technický článek a další👇 níže
PR: Technický blog: Technický článek: Objímající obličej:
Architektonicky ZAYA1 následuje náš recept "MoE++": - Komprimovaná konvoluční pozornost (CCA) [] - Nový router ZAYA1 - Škálování reziduí na vrstvu s naučenými hradly Tyto poskytují lepší škálovací křivky (na FLOP a na parametr) než standardní MoE.
Router ZAYA1 nahrazuje tradiční lineární frézy následujícími: - Zbytkový tok v nižších projektech - Aplikace exponenciálního průměrování hloubky (EDA) pro míchání informací napříč vrstvami - 3-vrstvové MLP na experta - Používá vyvažovací schéma inspirované teorií řízení, aby udrželo odborníky zaměstnané i specializované
Tréninkový recept: - celkem 14T tokenů - 3 fáze: webově náročný pretrain → fáze s velkým množstvím matematiky/kódu/strukturovaných → dlouhý kontext + uvažování během procesu - Učební plán se postupně posouvá směrem k hustým STEM + datům uvažování - Rozšíření kontextu z 4k → 32k pomocí kontextově paralelního CCA
Náš cluster, hostovaný @IBMcloud, se skládá ze 128 výpočetních uzlů, z nichž každý obsahuje: - 8 GPU MI300X propojených s InfinityFabric - 8 Pollara 400Gbps meziuzlová propojení - 2 CPU Intel Xeon Platinum 8570 Uzly jsou propojeny v topologii pouze dvouúrovňové kolejnice.
Provedli jsme společný návrh na zkrácení doby školení: - Jádra pro Newton-Schulzovu iteraci RMSNorm + Muon - Aegis, náš automatizovaný systém odolnosti vůči chybám pro zajištění vysoké dostupnosti - Distribuované kontrolní body a přetváření - Nové paralelistické schémata pro CP a distribuovaný mion
ZAYA1-base dosahuje silných výsledků ve srovnání s podobnými modely, což z něj činí silný základ pro naše následné následné trénování.
Přestože je pouze 760 milionů aktivních parametrů, základ ZAYA1 překonává husté modely jako Llama-3-8B a je konkurenceschopný s Qwen3-4B a Gemma3-12B v matematických a programovacích benchmarkech. V podmínkách s vysokou pass@k se základní model blíží výkonu specializovaných modelů uvažování.
42,48K