Chamath: Dos términos a los que debes prestar atención en IA son Prefill y Decode "Hay dos términos que creo que vas a oír hablar mucho en estos próximos años." "El primer término es pre-relleno, y el siguiente es decodificación." "Lo que son prefill y decodificación son dos formas muy distintas de cómo piensan los modelos y cómo un modelo pasa por el proceso de responder a una pregunta que le haces." "Y cuando envías un prompt a la IA, lo que ocurre es que el modelo lo procesa. Esto se llama fase de lectura o pre-llenado." "Lee todo tu prompt de golpe. Y luego hace un montón de matemáticas, calcula todas esas relaciones entre todas las palabras y las almacena en memoria temporal." "El problema es que esto está realmente ligado a cómputo. Así que requiere una fuerza bruta masiva. Y las GPUs Nvidia son un desastre aquí." "Y su arquitectura está diseñada para un procesamiento paralelo masivo, lo que los hace realmente increíbles digeriendo estos largos estímulos." "Así que el problema se hace cada vez mayor, Nvidia domina por completo." "Pero la siguiente fase, esta fase crítica, la fase de decodificación, es la fase de escritura, ¿verdad?" "Así que el modelo empieza a generar una respuesta, le haces una pregunta y su respuesta, un token a la vez." "Y luego, para elegir el siguiente token y la siguiente palabra, tiene que revisar todo lo que ya ha dicho para no alucinar." "El problema es que esto tiene una limitación increíblemente limitada de ancho de banda de memoria." "Y en nuestra arquitectura, hace mucho tiempo, tomamos estas decisiones de diseño desde el primer día." "Así que lo que hicimos fue adoptar un enfoque arquitectónico muy diferente, una tecnología de proceso muy conservadora. No estábamos empujando los límites de la física." ...