Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lançamento importante da DeepSeek.
E um grande feito para LLMs de código aberto.
DeepSeek-V3.2-Speciale está à altura do Gemini-3-Pro na Olimpíada Internacional de Matemática (IMO) de 2025 e na Olimpíada Internacional de Informática (IOI).
Ele até supera o Gemini 3 Pro em vários benchmarks.
A DeepSeek identifica três gargalos críticos:
> mecanismos de atenção vanilla que sufocam em sequências longas,
> computação insuficiente pós-treinamento,
> e fraca generalização em cenários agentes.
Eles introduzem o DeepSeek-V3.2, um modelo que aborda os três problemas simultaneamente.
Uma inovação chave é a Atenção Esparsa da DeepSeek (DSA), que reduz a complexidade da atenção de O(L²) para O(Lk), onde k é muito menor do que o comprimento da sequência. Um "indexador relâmpago" leve classifica quais tokens importam, e apenas esses tokens top-k recebem atenção total.
O resultado: acelerações significativas em contextos longos sem sacrificar o desempenho.
Mas a arquitetura sozinha não é suficiente. A DeepSeek aloca computação pós-treinamento que excede 10% do custo de pré-treinamento, um investimento massivo em RL que se traduz diretamente na capacidade de raciocínio.
Para tarefas agentes, eles construíram um pipeline automático de síntese de ambientes gerando 1.827 ambientes de tarefas distintos e mais de 85.000 prompts complexos. Agentes de código, agentes de busca e tarefas gerais de planejamento (tudo sintetizado em escala para treinamento em RL).
Os números: Na AIME 2025, o DeepSeek-V3.2 atinge 93,1% (GPT-5-High: 94,6%). No SWE-Verified, 73,1% resolvido. No HLE apenas texto, 25,1% em comparação com os 26,3% do GPT-5.
Sua variante de alto desempenho, DeepSeek-V3.2-Speciale, vai além, alcançando medalhas de ouro na IMO 2025 (35/42 pontos), IOI 2025 (492/600) e Finais Mundiais do ICPC 2025 (10/12 problemas resolvidos).
Este é o primeiro modelo aberto a competir de forma credível com sistemas proprietários de ponta em benchmarks de raciocínio, codificação e agentes.

Top
Classificação
Favoritos

