Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Velké vydání od DeepSeek.
A velká věc pro open-source LLM.
DeepSeek-V3.2-Speciale je na úrovni Gemini-3-Pro na Mezinárodní matematické olympiádě (IMO) 2025 a Mezinárodní olympiádě v informatice (IOI).
Dokonce překonává Gemini 3 Pro v několika benchmarkech.
DeepSeek identifikuje tři klíčová úzká místa:
> vanilkové mechanismy pozornosti, které se dusí na dlouhých sekvencích,
> nedostatečné výpočetní kapacity po školení,
> a slabé zobecnění v agentických scénářích.
Představují DeepSeek-V3.2, model, který řeší všechny tři problémy současně.
Jednou z klíčových inovací je DeepSeek Sparse Attention (DSA), která snižuje složitost pozornosti z O(L²) na O(Lk), kde k je mnohem menší než délka sekvence. Lehký "lightning indexer" hodnotí, které žetony mají význam, a pak jen ty top-k tokeny dostanou plnou pozornost.
Výsledkem jsou výrazné zrychlení při dlouhých kontextech, aniž by se snížil výkon.
Ale samotná architektura nestačí. DeepSeek přiděluje výpočetní kapacitu po tréninku přesahující 10 % nákladů na předškolení, což je obrovská investice do reálného života, která přímo znamená schopnost uvažování.
Pro agentické úkoly vytvořili automatický pipeline pro syntézu prostředí, který generoval 1 827 samostatných prostředí úkolů a 85 000+ složitých promptů. Kódoví agenti, vyhledávací agenti a obecné plánovací úkoly (vše syntetizované ve velkém měřítku pro trénování RL)
Čísla: Na AIME 2025 dosahuje DeepSeek-V3.2 93,1 % (GPT-5-High: 94,6 %). Na SWE-ověřeném případu bylo vyřešeno 73,1 %. U HLE pouze textového obsahu 25,1 % oproti GPT-5 26,3 %.
Jejich vysoce výpočetní varianta, DeepSeek-V3.2-Speciale, jde ještě dál a získala zlaté medaile na IMO 2025 (35/42 bodů), IOI 2025 (492/600) a ICPC World Finals 2025 (10/12 problémů vyřešeno).
Jedná se o první otevřený model, který věrohodně konkuruje proprietárním systémům Frontier v oblasti uvažování, kódování a agentických benchmarků.

Top
Hodnocení
Oblíbené

