La fine del 2025 ha segnato un importante punto di svolta per DeepProve, facendo avanzare il sistema di dimostrazione da un prover a nodo singolo a un sistema zkML distribuito e accelerato da GPU, progettato per carichi di lavoro di inferenza nel mondo reale. Leggi l'aggiornamento ingegneristico completo al link qui sotto: 🧵
2/ Abbiamo riprogettato DeepProve attorno a un grafo di esecuzione distribuito. Invece di un provatore monolitico, la logica di prova è ora espressa come sottografi parallelizzabili che possono essere suddivisi tra macchine ed eseguiti in modo concorrente. Questo sblocca la scalabilità orizzontale per la generazione di prove.
3/ L'algebra lineare è ora prima di einsum. Tutti i layer lineari, comprese le proiezioni dense e QKV, sono stati unificati sotto formulazioni esplicite di einsum, supportando ranghi di tensori arbitrari. Il risultato: un codice più semplice, meno layer su misura e maggiore flessibilità per le future architetture dei modelli.
4/ Abbiamo risolto un importante collo di bottiglia, gli strati non lineari, introducendo un singolo strato di Lookup generalizzato che gestisce softmax, ReLU, GELU, normalizzazione del livello e altro, con requantizzazione integrata. CIOÈ meno strati, meno sovraccarico e migliori prestazioni.
5/ La precisione è rimasta alta mentre le prestazioni sono aumentate. Rispetto a PyTorch FP32: • GPT-2 mostra un delta di perplessità <1% • Gemma-3 mostra un delta di perplessità ~4% DeepProve mantiene un'alta fedeltà numerica anche sotto ottimizzazioni più pesanti.
6/ L'inferenza è ora ottimizzata per la cache e nativa per GPU. Abbiamo aggiunto: • Cache posizionali per sequenze lunghe • Cache di concatenazione dei tensori per il riutilizzo di K/V Tutti i layer ora girano su GPU, abilitando la prova ottimistica: i risultati tornano immediatamente, le prove seguono in modo asincrono.
7/ Il throughput ha raggiunto un traguardo chiave. Dopo un'analisi e ottimizzazione dei colli di bottiglia end-to-end, DeepProve ora sostiene ~1,5 prove al secondo. Questo convalida che zkML può tenere il passo con l'inferenza pratica, non solo con carichi di lavoro offline o batch.
8/ TL;DR: Il quarto trimestre del 2025 ha portato DeepProve a un nuovo livello di architettura su scala produttiva. La dimostrazione distribuita, l'esecuzione GPU, le prove ottimistiche e il throughput sostenuto sono ora reali e scalabili, fornendo le basi necessarie per un'IA verificabile. Ulteriori aggiornamenti in arrivo.
424