Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
los parámetros de embedding están de moda nuevamente, ¡increíble artículo de LongCat Flash, concurrente con el Engram de DeepSeek!
diferencias con Engram:
-> sin embedding por capa (intentaron embedding por capa (PLE) pero no hubo ganancias reales)
-> fusión simple por promediado en lugar de la compuerta dinámica consciente del contexto de Engram
-> embeddings solo en la capa de entrada (frente a la inyección en capas más profundas de Engram)
igual que Engram:
-> múltiples sub-tablas hash para reducir colisiones
-> ley de escalado en forma de U similar para MoE frente a la asignación de N-gram
-> solo beneficioso en alta escasez (cuando MoE alcanza rendimientos decrecientes)
otros hallazgos clave:
-> los modelos más anchos se benefician más; los modelos más profundos ven rendimientos decrecientes
-> se debe amplificar la salida de embedding (√D o LayerNorm) para evitar ser ahogado por la primera capa de atención
-> el tamaño del vocabulario debe evitar múltiplos enteros del vocabulario base (picos de colisión)
-> ≤50% de los parámetros para embeddings, de lo contrario, MoE puro gana
-> buena sinergia con la decodificación especulativa

Parte superior
Clasificación
Favoritos
