Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Num piscar de olhos, a capacidade de armazenamento de IA explode em 12.300% (veja a matemática abaixo). Esta semana, a NVIDIA apresentou um desbloqueio massivo na eficiência das GPUs: uma nova arquitetura de armazenamento de IA especializada que estende o contexto/tokens que são processados em HBM - e agora pode derramar contexto em armazenamento NVMe compartilhado. Ao salvar o contexto em um KV Cache, os sistemas de inferência evitam o custo de recomputação de contexto (para inferência de grande contexto), reduzindo o tempo até o primeiro token em 20x ou mais.
O que as pessoas não percebem é que este é um gerador de dados completamente novo - e não só o mercado precisa de uma nova abordagem para a velocidade e eficiência do armazenamento, mas muitos laboratórios de IA (regulados) ainda precisarão de capacidade de gerenciamento de dados empresariais que não pode ser sacrificada por velocidade bruta.
A NVIDIA chama isso de Plataforma de Armazenamento de Memória de Contexto de Inferência (ICMS). Temos trabalhado com eles há semanas para pioneirar uma nova maneira de configurar sistemas VAST que proporciona eficiência máxima, incorporando a lógica central dos sistemas VAST diretamente em uma máquina GPU BlueField DPU.
**Os 12x não são brincadeira. Fiz as contas hoje **
- Um sistema VAST padrão, minimamente configurado para um NCP (NVIDIA Cloud Partner), tem aproximadamente 1,3TB de dados para cada GPU em um cluster da classe GB200.
- Quando adicionamos infraestrutura adicional para extensão de memória de contexto, as GPUs precisarão de mais 16TB à medida que entramos na era Vera Rubin. 12,3x.
Por que @VAST_Data, você pode perguntar?
1. nossa arquitetura DASE paralela nos permite incorporar servidores VAST diretamente em cada servidor BlueField. Isso não só reduz os requisitos de infraestrutura em comparação com configurações convencionais onde servidores x86 separados eram compartilhados por clientes de GPU, mas também muda o paradigma fundamental cliente:servidor... onde pela primeira vez cada máquina cliente de GPU agora tem seu próprio servidor dedicado. A arquitetura paralela Desagregada e Compartilhada de Tudo da VAST torna possível incorporar servidores em cada cliente sem introduzir interferência entre servidores VAST, como seria o caso para qualquer outra tecnologia de armazenamento.
Cada servidor então se conecta diretamente a todos os SSDs do cluster, exigindo um único salto de zero cópia para acessar todo o contexto compartilhado - assim, qualquer máquina pode recuperar contexto em tempo real. A eficiência e a escala dessa arquitetura são sem precedentes.
2. Embora possamos obter um ótimo desempenho ao simplificar os serviços de dados que rodam no BlueField, nossa arquitetura embaraçosamente paralela nos permite adicionar servidores adicionais na mesma estrutura para fornecer gerenciamento de dados empresariais em segundo plano opcional... trazendo capacidades como proteção de dados, auditoria, criptografia e até 2:1 de redução de dados KVCache para um cluster que tem um caminho de dados ultra-otimizado para a GPU.
Com a VAST, os laboratórios de IA não precisam escolher...
Eles podem obter desempenho e recursos globais de gerenciamento de dados incríveis.
Este espaço está evoluindo agora... há muito espaço para inventar.
Envie-me uma DM para co-desenvolver o futuro dos sistemas de inferência acelerada conosco.



Top
Classificação
Favoritos
