¡Transformador y Mezcla de Expertos en LLMs, explicado visualmente! La Mezcla de Expertos (MoE) es una arquitectura popular que utiliza diferentes expertos para mejorar los modelos de Transformador. El Transformador y MoE difieren en el bloque del decodificador: - El Transformador utiliza una red de alimentación hacia adelante. - MoE utiliza expertos, que son redes de alimentación hacia adelante pero más pequeñas en comparación con las del Transformador. Durante la inferencia, se selecciona un subconjunto de expertos. Esto hace que la inferencia sea más rápida en MoE. Además, dado que la red tiene múltiples capas de decodificador: - El texto pasa a través de diferentes expertos en las capas. - Los expertos elegidos también difieren entre tokens. Pero, ¿cómo decide el modelo qué expertos deberían ser ideales? El enrutador hace eso. Es un clasificador multiclase que produce puntajes softmax sobre los expertos para seleccionar los mejores K expertos. El enrutador se entrena con la red, y aprende a seleccionar los mejores expertos. Pero no es sencillo. ¡Hay desafíos! Desafío 1) Nota este patrón al inicio del entrenamiento: ...