El final de 2025 supuso un punto de inflexión importante para DeepProve, que avanzó el sistema de demostración de un solo nodo a un sistema zkML distribuido y acelerado por GPU, diseñado para cargas de trabajo de inferencia del mundo real. Lee la actualización completa de ingeniería en el enlace de abajo: 🧵
2/ Rediseñamos DeepProve alrededor de un grafo de ejecución distribuido. En lugar de un demostrador monolítico, la lógica de demostración ahora se expresa como subgrafos paralelizables que pueden dividirse entre máquinas y ejecutarse simultáneamente. Esto desbloquea la escala horizontal para la generación de pruebas.
3/ El álgebra lineal ahora es einsum-first. Todas las capas lineales, incluidas las proyecciones densas y QKV, se unificaron bajo formulaciones explícitas de einsum, soportando rangos tensoriales arbitrarios. El resultado: una base de código más sencilla, menos capas personalizadas y más flexibilidad para futuras arquitecturas de modelos.
4/ Solucionamos un cuello de botella importante, las capas no lineales, introduciendo una única capa de búsqueda generalizada que maneja softmax, ReLU, GELU, norma de capa y más, con recuantización incorporada. Es decir, menos capas, menos sobrecarga y mejor rendimiento.
5/ La precisión se mantuvo a medida que se escalaba el rendimiento. Comparado con PyTorch FP32: • GPT-2 muestra un delta de perplejidad <1% • Gemma-3 muestra un delta de perplejidad ~4% DeepProve mantiene una alta fidelidad numérica incluso con optimizaciones más pesadas.
6/ Inference ahora es compatible con caché y nativa de GPU. Añadimos: • Cachés posicionales para secuencias largas • Cachés de concatenación tensorial para reutilización de K/V Todas las capas ahora se ejecutan en GPU, lo que permite una demostración optimista: los resultados regresan inmediatamente y las demostraciones siguen de forma asíncrona.
7/ El rendimiento alcanzó un hito clave. Tras un análisis y optimización de cuello de botella de extremo a extremo, DeepProve ahora mantiene ~1,5 pruebas por segundo. Esto valida que zkML puede seguir el ritmo de la inferencia práctica, no solo con cargas de trabajo offline o por lotes.
8/ Resumen; DR: El cuarto trimestre de 2025 llevó DeepProve a un nuevo nivel de arquitectura a escala de producción. La demostración distribuida, la ejecución por GPU, las demostraciones optimistas y el rendimiento sostenido son ahora reales y escalables, proporcionando las bases necesarias para una IA verificable. Pronto habrá más información.
421