Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NOVAS Pesquisas da Apple.
Quando você pensa sobre isso, os sistemas RAG estão fundamentalmente quebrados. A recuperação e a geração são otimizadas separadamente, a recuperação seleciona documentos com base na similaridade superficial, enquanto os geradores produzem respostas sem feedback sobre quais informações são realmente necessárias.
Há um desajuste arquitetônico.
Os recuperadores densos classificam documentos no espaço de incorporação, enquanto os geradores consomem texto bruto. Isso cria espaços de representação inconsistentes que impedem a otimização de ponta a ponta, processamento de texto redundante que causa transbordamento de contexto e codificação duplicada tanto para recuperação quanto para geração.
Esta nova pesquisa introduz o CLaRa, uma estrutura unificada que realiza recuperação e geração sobre representações contínuas de documentos compartilhadas.
Eles codificam documentos uma vez em representações de token de memória compactas que servem a ambos os propósitos. Em vez de manter incorporações separadas e texto bruto, os documentos são comprimidos em vetores densos nos quais tanto o recuperador quanto o gerador operam diretamente.
Isso possibilita algo anteriormente impossível: gradientes fluindo do gerador de volta para o recuperador através de um seletor top-k diferenciável usando estimativa Straight-Through. O recuperador aprende quais documentos realmente melhoram a geração de respostas, em vez de depender da similaridade superficial.
Para fazer a compressão funcionar, eles introduzem o SCP, uma estrutura de pré-treinamento que sintetiza pares de QA e paráfrases para ensinar o compressor quais informações são essenciais. QA simples captura fatos atômicos, QA complexo promove raciocínio relacional, e paráfrases preservam a semântica enquanto alteram a forma superficial.
Resultados:
Com 16x de compressão, o CLaRa-Mistral-7B supera o DRO-Mistral-7B baseado em texto no NQ (51.41 vs 51.01 F1) e 2Wiki (47.18 vs 43.65 F1) enquanto processa muito menos contexto. Com 4x de compressão, ele excede as linhas de base de texto não comprimido em 2.36% em média no Mistral-7B.
Mais notavelmente, o CLaRa treinado com apenas supervisão fraca da previsão do próximo token supera recuperadores totalmente supervisionados com rótulos de relevância de verdade. No HotpotQA, ele alcança 96.21% Recall@5, superando o BGE-Reranker (85.93%) em mais de 10 pontos, apesar de não usar dados de relevância anotados.
A compressão suave bem treinada pode reter informações essenciais de raciocínio enquanto reduz substancialmente o comprimento da entrada. As representações comprimidas filtram conteúdo irrelevante e focam o gerador no contexto relevante para o raciocínio, levando a uma melhor generalização do que entradas de texto bruto.
Ótima leitura para desenvolvedores de IA. (salve como favorito)
Artigo:
Aprenda a construir com RAG e Agentes de IA na minha academia:

Top
Classificação
Favoritos
