Los parámetros de incrustación están de moda otra vez, artículo increíble de LongCat Flash, ¡en paralelo con el Engram de DeepSeek! Diferencias con Engram: -> no incrustación por capa (probaron incrustación por capa (PLE) pero no obtuvieron grandes avances) -> fusión de promediado simple en lugar del gating dinámico consciente del contexto de Engram -> incrustaciones solo en la capa de entrada (frente a la inyección de capa más profunda de Engram) igual que Engram: -> múltiples sub-tablas hash para reducir colisiones -> ley de escala similar en forma de U para la asignación de MoE frente a N-gramos -> solo beneficiosa en alta escasez (cuando el MoE alcanza rendimientos decrecientes) Otros hallazgos clave: -> modelos más anchos se benefician más; Los modelos más profundos ven rendimientos decrecientes -> debe amplificar la salida de incrustación (√D o LayerNorm) para evitar el ahogamiento por la primera capa de atención -> tamaño del vocabulario debe evitar múltiplos enteros del vocabulario base (picos de colisión) -> ≤50% de los parámetros a embeddings, de lo contrario gana el MoE puro -> buena sinergia con la decodificación especulativa