DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

La mayoría de la gente piensa que la computación descentralizada falla porque "no hay suficientes GPUs." Están mirando la oferta. El verdadero obstáculo es la coordinación, y quien lo resuelva podrá establecer las reglas para la infraestructura de IA. 🧵

/2 Seguimos aprendiendo la lección equivocada de la computación voluntaria como Folding@Home. Esos trabajos toleran nodos lentos y caídas. El entrenamiento e inferencia de IA modernos castigan la inconsistencia, una GPU inestable puede detener toda la ejecución.

/3 Una pregunta sigue surgiendo para nosotros: ¿Pueden las GPU globalmente dispersas y desajustadas comportarse como una máquina predecible? Si la respuesta es no, la fiabilidad y la experiencia del desarrollador nunca importan, porque nada se envía.

/4 Internet hace que las GPU se comporten como instrumentos con diferentes afinaciones. Los centros de datos asumen un tiempo perfecto. Una malla global te da jitter, ancho de banda desigual, tiempo de inactividad aleatorio y variación de hardware. La coordinación tiene que absorber ese desorden.

/5 @YottaLabs toma la ruta del sistema operativo, no la ruta del mercado. Programación, comunicación, descarga de memoria, manejo de fallos, verificación. El punto es simple, convertir máquinas poco fiables en un clúster que se comporte de manera lo suficientemente predecible para los SLA.

/6 La idea más concreta, dividir la inferencia en dos trabajos. Prefill necesita las mejores GPU. Decode puede ejecutarse en GPU más débiles. Ese diseño evita que las tarjetas caras esperen a las baratas, y hace que las “flotas mixtas” sean útiles en lugar de dolorosas.

/7 Luego el cuello de botella oculto, moviendo la memoria de trabajo del modelo (caché KV). Si lo envías en una gran transferencia, te detienes. Yotta transmite pequeños fragmentos mientras se ejecuta el cálculo y comprime la caché, de modo que la latencia de WAN deja de dominar.

120

Parte superior

Clasificación

Favoritos