Робити більше з набагато меншою кількістю — деякі еталони провідних моделей відкритого коду. «Незважаючи на те, що ZAYA1-base (760 м активно) працює на частці від кількості активних параметрів, вона досягає продуктивності, порівнянної з провідними моделями, такими як Qwen3-4B (Alibaba) та Gemma3-12B (Google), і перевершує такі моделі, як Llama-3-8B (Meta) та OLMoE, у тестах логіки, математики та кодування.» —  Перша діаграма — деталі про стиснуту згорткову увагу (CCA) Zyphra: P.S. відповідь на мій слоган: «Zyphra без іронії *є* DeepSeek Заходу... не в останню чергу тому, що це одна з найбільш відкритих *і* демографічно західних лабораторій (тоді як DeepSeek, звісно, на 100% китайський). Математична строгість і наукова культура.» — + Технічний блог: та + Технічна стаття: + Обіймання обличчя: