Jsem velmi hrdý, že jsem tento milník překročil. Přistáli jsme na škálovací křivce qwen bez benchmaxxingu a udělali jsme to na AMD clusteru.
Je čas na rozšíření!
Ve spolupráci s @AMD a @IBM @ZyphraAI sdílíme ZAYA1-base! První velkoplošný model na integrovaném hardwarovém, softwarovém a síťovém stacku AMD. ZAYA1 využívá novou architekturu MoE od Zyphry s 760M aktivními a 8,3B celkovými parametry.
Technický článek a další👇 níže