UUTTA tutkimusta Applelta. Kun asiaa ajattelee, RAG-järjestelmät ovat pohjimmiltaan rikki. Haku ja generointi optimoidaan erikseen, haku valitsee asiakirjat pinnallisen samankaltaisuuden perusteella, kun taas generaattorit tuottavat vastauksia ilman palautetta siitä, mitä tietoa oikeasti tarvitaan. Arkkitehtoninen ristiriita on olemassa. Tiheät noutajat järjestävät asiakirjat upotustilaan, kun taas generaattorit kuluttavat raakatekstiä. Tämä luo epäjohdonmukaisia esitystiloja, jotka estävät päästä päähän -optimoinnin, redundanssin tekstinkäsittelyn, joka aiheuttaa kontekstin ylivuodon, sekä kaksoiskoodauksen sekä hakua että generointia varten. Tämä uusi tutkimus esittelee CLaRa:n, yhtenäisen kehyksen, joka suorittaa haun ja generoinnin jaettujen jatkuvien dokumenttiesitysten yli. Ne koodaavat asiakirjat kerran kompakteihin muisti-token-esityksiin, jotka palvelevat molempia tarkoituksia. Sen sijaan, että upotukset ja raakateksti säilytettäisiin erillään, asiakirjat pakotetaan tiheiksi vektoreiksi, joilla sekä noutaja että generaattori toimivat suoraan. Tämä mahdollistaa aiemmin mahdottoman: gradientit, jotka kulkevat generaattorista takaisin retrieveriin differentioituvan top-k -valitsimen kautta suoran läpi -estimaatiolla. Noutaja oppii, mitkä dokumentit todella parantavat vastausten tuottamista sen sijaan, että luottaisi pinnalliseen samankaltaisuuteen. Kompression toimivuuden varmistamiseksi he ottavat käyttöön SCP:n, esikoulutuskehyksen, joka yhdistää QA-parit ja parafraasiat opettaakseen kompressorille, mikä tieto on olennaista. Yksinkertainen laadunvalvonta tallentaa atomiset faktat, kompleksinen laadunvalvonta edistää relaatiopäättelyä ja parafraasit säilyttävät semantiikan muuttaen pintamuotoa. Tulokset: 16-kertaisella pakkauksella CLaRa-Mistral-7B ohittaa tekstipohjaisen DRO-Mistral-7B:n NQ:ssa (51.41 vs 51.01 F1) ja 2Wikissä (47.18 vs 43.65 F1) samalla kun se käsittelee huomattavasti vähemmän kontekstia. 4-kertaisella pakkauksella se ylittää pakkaamattoman tekstin perusviivat keskimäärin 2,36 % Mistral-7B:llä. Erityisesti CLaRa, joka on koulutettu vain heikolla valvonnalla seuraavan tokenin ennustamisella, päihittää täysin valvotut noutajat, joilla on totuusrelevanssimerkintöjä. HotpotQA:ssa se saavuttaa 96,21 % Recall@5, ylittäen BGE-Rerankerin (85,93 %) yli 10 pisteellä, vaikka siinä ei ole kommentoituja relevanssitietoja. Hyvin koulutettu pehmeä pakkaus voi säilyttää olennaisen päättelytiedon samalla kun syötteen pituus lyhentää merkittävästi. Tiivistetyt esitykset suodattavat pois epäolennaisen sisällön ja keskittyvät generaattorin päättelyyn liittyvään kontekstiin, mikä johtaa parempaan yleistykseen kuin raakatekstisyötteet. Erinomaista lukukokemusta tekoälykehittäjille. (kirjanmerkkeihin) Artikkeli: Opettele rakentamaan RAG- ja tekoälyagenttien avulla akatemiassani: