Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A Hipótese do Subespaço de Peso Universal
As nossas descobertas oferecem novas perspetivas sobre a organização intrínseca da informação dentro de redes profundas e levantam questões importantes sobre a possibilidade de descobrir esses subespaços universais sem a necessidade de dados extensivos e recursos computacionais.
... ao realizar decomposições espectrais camada a camada e reter apenas as direções principais, uma aproximação precisa desses subespaços universais pode ser extraída. Empiricamente, este comportamento emerge amplamente: em modelos totalmente ajustados e adaptadores baseados em LoRA, em modelos treinados do zero, tanto em configurações generativas como discriminativas, e em configurações multimodais. Além disso, os subespaços aproximados generalizam para tarefas fora da distribuição, onde projetar modelos e aprender apenas um pequeno conjunto de coeficientes é suficiente para recuperar um desempenho forte. Isso permite adaptar-se a novas tarefas sem re-treinamento ou armazenamento de pesos completos, e apoia o aprendizado robusto de múltiplas tarefas, ajuste fino escalável e fusão de modelos de forma fundamentada dentro de uma única estrutura unificadora.
As implicações práticas são substanciais. Ao reutilizar um conjunto comum de direções principais camada a camada e aprender apenas coeficientes leves por tarefa, grandes modelos podem ser estendidos e servidos com uma redução dramática nos custos computacionais, de memória e de engenharia.
... podemos reciclar e substituir efetivamente modelos pré-treinados disponíveis por um modelo de subespaço universal, onde cada indivíduo é representado por um conjunto esparso de coeficientes. Nesta seção, mostramos um conjunto de experimentos onde utilizamos os subespaços universais para aprender novas tarefas, congelando os componentes e simplesmente aprendendo os coeficientes usando descida de gradiente. Descobrimos que, uma vez que estamos apenas aprendendo os coeficientes, isso reduz drasticamente o número de parâmetros necessários para treinar os novos modelos. Além disso, uma vez que esses coeficientes são simplesmente valores de escala linear, a otimização é mais suave e rápida.

Top
Classificação
Favoritos
