Делая больше с гораздо меньшими затратами — некоторые ориентиры ведущих моделей с открытым исходным кодом. "Несмотря на то, что ZAYA1-base (760 млн активных параметров) работает с лишь частью активного количества параметров, он демонстрирует производительность, сопоставимую с ведущими моделями, такими как Qwen3-4B (Alibaba) и Gemma3-12B (Google), и превосходит модели, включая Llama-3-8B (Meta) и OLMoE по критериям рассуждений, математики и программирования." — Первый график — детали о сжатом свёрточном внимании Zyphra (CCA): P.S. ответ на мой слоган: "Zyphra иронично *является* DeepSeek Запада... не в последнюю очередь потому, что это одна из самых открытых *и* демографически западных лабораторий (в то время как DeepSeek, конечно, на 100% китайская). Математическая строгость и научная культура." — + Технический блог: и + Техническая статья: + Hugging Face: