Chamath : Deux termes auxquels vous devez prêter attention dans l'IA sont Prefill et Decode « Il y a deux termes dont je pense que vous allez beaucoup entendre parler au cours des prochaines années. » « Le premier terme est prefill, et le suivant est decode. » « Ce que sont prefill et decode, ce sont deux manières très distinctes de penser des modèles, et comment un modèle passe par le processus de réponse à une question que vous lui posez. » « Et donc, lorsque vous envoyez une invite à l'IA, ce qui se passe, c'est que le modèle la traite. C'est ce qu'on appelle la phase de lecture ou prefill. » « Il lit votre invite entière d'un coup. Et ensuite, il fait un tas de calculs, calcule toutes ces relations entre tous les mots, et les stocke dans une mémoire temporaire. » « Le problème, c'est que c'est vraiment limité par le calcul. Donc, cela nécessite une force brute massive. Et les GPU Nvidia excellent ici. » « Et leur architecture est conçue pour un traitement parallèle massif, ce qui les rend vraiment incroyables pour digérer ces longues invites. » « Donc, le problème devient de plus en plus grand, Nvidia domine complètement. » « Mais la prochaine phase, cependant, cette phase critique, la phase decode, est la phase d'écriture, n'est-ce pas ? » « Donc, le modèle commence à générer une réponse, vous lui posez une question et sa réponse, un jeton à la fois. » « Et ensuite, pour choisir le prochain jeton, pour choisir le prochain mot, il doit revenir sur tout ce qu'il a déjà dit afin de ne pas halluciner. » « Le problème, c'est que cela est incroyablement contraint par la bande passante de la mémoire. » « Et dans notre architecture, il y a longtemps, nous avons pris ces décisions de conception dès le premier jour. » « Et donc, ce que nous avons fait, c'est que nous avons adopté une approche architecturale très différente, nous avons pris une technologie de processus très conservatrice. Nous ne poussions pas les limites de la physique. » ...