«GHC introduce un mecanismo flexible que, con cálculo ligero, comprime los estados ocultos sobre ancho en el ancho de la columna vertebral antes de alimentarlos en los módulos de atención o de avance, y luego expande las salidas del módulo de nuevo al ancho superior» Una locura descarada
DailyPapers
DailyPapers17 nov 2025
ByteDance introduces Virtual Width Networks (VWN) for efficient AI scaling This new framework expands model embedding space for wider representations while keeping compute constant. It accelerates optimization by over 2x for next-token and 3x for next-2-token prediction!
Es relativamente barato
33.47K