Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los parámetros de incrustación están de moda otra vez, artículo increíble de LongCat Flash, ¡en paralelo con el Engram de DeepSeek!
Diferencias con Engram:
-> no incrustación por capa (probaron incrustación por capa (PLE) pero no obtuvieron grandes avances)
-> fusión de promediado simple en lugar del gating dinámico consciente del contexto de Engram
-> incrustaciones solo en la capa de entrada (frente a la inyección de capa más profunda de Engram)
igual que Engram:
-> múltiples sub-tablas hash para reducir colisiones
-> ley de escala similar en forma de U para la asignación de MoE frente a N-gramos
-> solo beneficiosa en alta escasez (cuando el MoE alcanza rendimientos decrecientes)
Otros hallazgos clave:
-> modelos más anchos se benefician más; Los modelos más profundos ven rendimientos decrecientes
-> debe amplificar la salida de incrustación (√D o LayerNorm) para evitar el ahogamiento por la primera capa de atención
-> tamaño del vocabulario debe evitar múltiplos enteros del vocabulario base (picos de colisión)
-> ≤50% de los parámetros a embeddings, de lo contrario gana el MoE puro
-> buena sinergia con la decodificación especulativa

Populares
Ranking
Favoritas
