los parámetros de embedding están de moda nuevamente, ¡increíble artículo de LongCat Flash, concurrente con el Engram de DeepSeek! diferencias con Engram: -> sin embedding por capa (intentaron embedding por capa (PLE) pero no hubo ganancias reales) -> fusión simple por promediado en lugar de la compuerta dinámica consciente del contexto de Engram -> embeddings solo en la capa de entrada (frente a la inyección en capas más profundas de Engram) igual que Engram: -> múltiples sub-tablas hash para reducir colisiones -> ley de escalado en forma de U similar para MoE frente a la asignación de N-gram -> solo beneficioso en alta escasez (cuando MoE alcanza rendimientos decrecientes) otros hallazgos clave: -> los modelos más anchos se benefician más; los modelos más profundos ven rendimientos decrecientes -> se debe amplificar la salida de embedding (√D o LayerNorm) para evitar ser ahogado por la primera capa de atención -> el tamaño del vocabulario debe evitar múltiplos enteros del vocabulario base (picos de colisión) -> ≤50% de los parámetros para embeddings, de lo contrario, MoE puro gana -> buena sinergia con la decodificación especulativa