Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A NVIDIA acabou de lançar um artigo que pode resolver o maior compromisso em LLMs.
Velocidade vs. Qualidade.
Modelos autorregressivos (como o GPT) são inteligentes, mas lentos – eles geram um token por vez, deixando a maior parte da sua GPU parada.
Modelos de difusão são rápidos, mas frequentemente produzem saídas incoerentes.
O TiDAR coloca vocês dois em um único passe para frente.
Aqui está a parte genial:
GPUs modernas conseguem processar muito mais tokens do que realmente usamos. O TiDAR explora esses "slots livres" por:
1. Elaborar múltiplos tokens ao mesmo tempo usando difusão (a fase de "pensar")
2. Verificá-los usando autoregressão (a fase de "falar")
Ambos acontecem simultaneamente usando máscaras inteligentes de atenção – bidirecionais para desenho, causal para verificação.
Os resultados:
↳ 4,71x mais rápido em parâmetros 1,5 bilhões, sem perda de qualidade
↳ Quase 6 vezes mais rápido em parâmetros 8B
↳ Primeira arquitetura a superar a decodificação especulativa (EAGLE-3)
↳ Funciona com cache KV padrão, ao contrário dos modelos de difusão pura
O truque de treinamento também é inteligente – em vez de mascarar os tokens aleatoriamente, eles mascaram tudo. Isso proporciona sinais de aprendizado mais fortes e possibilita um desenho eficiente em etapas únicas.
Se você está construindo agentes de IA em tempo real onde a latência acaba com a experiência, essa arquitetura merece atenção.
...

Melhores
Classificação
Favoritos

