El final de 2025 marcó un punto de inflexión importante para DeepProve, avanzando el sistema de prueba de un probador de nodo único a un sistema zkML distribuido y acelerado por GPU diseñado para cargas de trabajo de inferencia del mundo real. Lee la actualización completa de ingeniería en el enlace a continuación: 🧵
2/ Reestructuramos DeepProve en torno a un grafo de ejecución distribuido. En lugar de un probador monolítico, la lógica de prueba ahora se expresa como subgrafos paralelizables que pueden dividirse entre máquinas y ejecutarse de manera concurrente. Esto desbloquea la escalabilidad horizontal para la generación de pruebas.
3/ El álgebra lineal ahora es primero einsum. Todas las capas lineales, incluidas las proyecciones densas y QKV, se unificaron bajo formulaciones explícitas de einsum, soportando rangos de tensor arbitrarios. El resultado: una base de código más simple, menos capas personalizadas y más flexibilidad para futuras arquitecturas de modelos.
4/ Solucionamos un importante cuello de botella, las capas no lineales, al introducir una única capa de Búsqueda generalizada que maneja softmax, ReLU, GELU, normalización de capas y más, con requantización incorporada. Es decir, menos capas, menos sobrecarga y mejor rendimiento.
5/ La precisión se mantuvo a medida que el rendimiento escaló. En comparación con PyTorch FP32: • GPT-2 muestra un delta de perplexidad de <1% • Gemma-3 muestra un delta de perplexidad de ~4% DeepProve mantiene una alta fidelidad numérica incluso bajo una optimización más pesada.
6/ La inferencia ahora es amigable con la caché y nativa de GPU. Hemos añadido: • Cachés posicionales para secuencias largas • Cachés de concatenación de tensores para reutilización de K/V Todas las capas ahora se ejecutan en GPU, lo que permite una prueba optimista: los resultados se devuelven de inmediato, las pruebas siguen de forma asíncrona.
7/ El rendimiento alcanzó un hito clave. Después de un análisis y optimización de cuellos de botella de extremo a extremo, DeepProve ahora sostiene ~1.5 pruebas por segundo. Esto valida que zkML puede mantener el ritmo con la inferencia práctica, no solo con cargas de trabajo fuera de línea o por lotes.
8/ Resumen: El cuarto trimestre de 2025 llevó a DeepProve a un nuevo nivel de arquitectura a escala de producción. La prueba distribuida, la ejecución en GPU, las pruebas optimistas y el rendimiento sostenido son ahora reales y escalables, proporcionando las bases necesarias para una IA verificable. Pronto habrá más novedades.
424