NUEVA investigación de Apple. Cuando lo piensas, los sistemas RAG están fundamentalmente rotos. La recuperación y la generación están optimizadas por separado, la recuperación selecciona documentos en función de la similitud superficial mientras que los generadores producen respuestas sin retroalimentación sobre qué información se necesita realmente. Hay un desajuste arquitectónico. Los recuperadores densos clasifican documentos en el espacio de incrustación mientras que los generadores consumen texto sin procesar. Esto crea espacios de representación inconsistentes que impiden la optimización de extremo a extremo, un procesamiento de texto redundante que causa desbordamiento de contexto y una codificación duplicada tanto para la recuperación como para la generación. Esta nueva investigación presenta CLaRa, un marco unificado que realiza recuperación y generación sobre representaciones de documentos continuas compartidas. Codifican documentos una vez en representaciones de tokens de memoria compactas que sirven para ambos propósitos. En lugar de mantener incrustaciones separadas y texto sin procesar, los documentos se comprimen en vectores densos sobre los que operan directamente tanto el recuperador como el generador. Esto permite algo que antes era imposible: gradientes fluyendo del generador de vuelta al recuperador a través de un selector top-k diferenciable utilizando estimación Straight-Through. El recuperador aprende qué documentos realmente mejoran la generación de respuestas en lugar de depender de la similitud superficial. Para hacer que la compresión funcione, introducen SCP, un marco de preentrenamiento que sintetiza pares de QA y paráfrasis para enseñar al compresor qué información es esencial. QA simple captura hechos atómicos, QA complejo promueve el razonamiento relacional y las paráfrasis preservan la semántica mientras alteran la forma superficial. Resultados: Con una compresión de 16x, CLaRa-Mistral-7B supera al DRO-Mistral-7B basado en texto en NQ (51.41 vs 51.01 F1) y 2Wiki (47.18 vs 43.65 F1) mientras procesa mucho menos contexto. Con una compresión de 4x, supera las líneas base de texto sin comprimir en un 2.36% de promedio en Mistral-7B. Lo más notable es que CLaRa entrenado solo con supervisión débil de la predicción del siguiente token supera a los recuperadores totalmente supervisados con etiquetas de relevancia de verdad. En HotpotQA, logra un 96.21% de Recall@5, superando a BGE-Reranker (85.93%) por más de 10 puntos a pesar de no usar datos de relevancia anotados. La compresión suave bien entrenada puede retener información de razonamiento esencial mientras reduce sustancialmente la longitud de entrada. Las representaciones comprimidas filtran contenido irrelevante y enfocan al generador en el contexto relevante para el razonamiento, lo que lleva a una mejor generalización que las entradas de texto sin procesar. Gran lectura para desarrolladores de IA. (guárdalo) Papel: Aprende a construir con RAG y Agentes de IA en mi academia: