La escasez de GPUs en IA nunca fue por los chips. Tenemos de sobra. La verdadera crisis es que todavía no podemos usar la mayoría de ellos. He aquí por qué 🧵
@cot_research 2/ Mira la diferencia: El cálculo voluntario como Folding@Home funciona bien en hardware de consumo. ¡Incluso @pewdiepie está haciendo un gran trabajo y contribuyendo! Sin embargo, las cargas de trabajo modernas de IA fracasarán. Mismo pool de hardware. Un resultado muy diferente. ¿Por qué?
3/ Los tiempos de ejecución modernos de IA (inferencia o entrenamiento) asumen condiciones estériles: - GPUs idénticas - Enlaces estables y de baja latencia Sin embargo, el mundo real es un caos de máquinas heterogéneas e internet con lag Aquí se colapsa la pila tecnológica estándar.
4/ Muchas llamadas redes de cómputo "descentralizadas" no han alcanzado el ajuste producto-mercado porque tratan este lío como un caso límite. Construyen mercados para agregar GPUs inactivas, pero la agregación no es coordinación. Si el hardware no puede comportarse como una máquina coherente, es... Un poco inútil
5/ La coordinación es aguas arriba. En redes de cómputo: si no resuelves primero la coordinación de hardware fragmentado, nada más de lo que construyas importa. Fiabilidad y experiencia de desarrollador son problemas posteriores.
6/@YottaLabs es el primer equipo que veo abordar esto desde cero y avanzar con fuerza. Al reconstruir la pila de IA, desde el planificador hasta la capa de comunicación, han llevado el rendimiento de computación descentralizado a un rango de ~15% de los clústeres centralizados.
7/ Lo que resulta aún más interesante es el modelo de negocio de @YottaLabs. El mercado es secundario. Están construyendo un foso de datos en la resiliencia operativa que Google no puede replicar: el optimizador inteligente Yotta devuelve cada pico térmico y fallo de red a su optimizador. Más sobre esto más adelante.
75