¡Transformador y mezcla de expertos en LLMs, explicados visualmente! La mezcla de expertos (MoE) es una arquitectura popular que utiliza diferentes expertos para mejorar los modelos de Transformers. Transformador y MoE difieren en el bloque del decodificador: - El transformador utiliza una red de avance de alimentación. - El MoE utiliza expertos, que son redes feed-forward pero más pequeñas en comparación con los Transformer. Durante la inferencia, se selecciona un subconjunto de expertos. Esto hace que la inferencia sea más rápida en MoE. Además, dado que la red tiene múltiples capas de decodificador: - El texto pasa por diferentes expertos a través de capas. - Los expertos elegidos también difieren entre fichas. Pero, ¿cómo decide el modelo qué expertos deberían ser ideales? El router hace eso. Es un clasificador multiclase que produce puntuaciones softmax sobre expertos para seleccionar a los mejores K expertos. El router está entrenado con la red y aprende a seleccionar a los mejores expertos. Pero no es sencillo. ¡Hay desafíos! Reto 1) Observa este patrón al inicio del entrenamiento: ...