Robienie więcej przy znacznie mniejszych zasobach — kilka benchmarków wiodących modeli open source. "Pomimo działania przy ułamku aktywnej liczby parametrów, ZAYA1-base (760m aktywnych) osiąga wydajność porównywalną z wiodącymi modelami takimi jak Qwen3-4B (Alibaba) i Gemma3-12B (Google), a także przewyższa modele takie jak Llama-3-8B (Meta) i OLMoE w zakresie rozumowania, matematyki i benchmarków kodowania." — Pierwszy wykres — szczegóły dotyczące skompresowanej konwolucyjnej uwagi Zyphry (CCA): P.S. odpowiedź na mój slogan: "Zyphra bez ironii *jest* DeepSeekiem Zachodu... nie mniej dlatego, że jest jednym z najbardziej otwartych *i* demograficznie zachodnich laboratoriów (podczas gdy DeepSeek jest oczywiście w 100% chiński). Rygor matematyczny i kultura naukowa." — + Blog techniczny: i + Artykuł techniczny: + Hugging Face: