Moniagenttijärjestelmät tuottavat usein pettymyksiä? Ongelma ei välttämättä ole agenteissa itsessään, vaan siinä, miten he ovat järjestäytyneet. Useimmissa järjestelmissä on kiinteä ketju, puu tai graafirakenne, jota ei voi säätää tehtävän muuttuessa. Mutta entä jos järjestelmä oppii oman yhteistyömallinsa? Tämä menestysartikkeli esittelee kehikon nimeltä Puppeteer, joka dynaamisesti orkestroi agentteja sen sijaan, että luottaisiin ennalta suunniteltuihin topologioihin. Avain on: • Ei enää ennalta määriteltyjä yhteistyörakenteita, vaan agentteja, joiden koordinaattorit valitsevat seuraavan puhujan muuttuvien keskustelutilojen perusteella. • Kouluta strategioita REINFORCE-algoritmeilla tehtävien onnistumisprosenttien suoraan optimoimiseksi. • Välttää kombinatorinen monimutkaisuus sarjoittamalla kaiken jatkuvaksi agenttivalinnaksi sen sijaan, että etsisit monimutkaisia graafitopologioita. Tulokset ovat yllättäviä: Suuren graafirakenteen sijaan muodostuu luonnollisesti kompakti syklinen kuvio, jossa 2–3 agenttia hoitaa suurimman osan työstä. Vielä voimakkaampaa on, että järjestelmä voi itsenäisesti löytää tehokkuuden. Saavutusten näyttö: • GSM-vaikeissa matemaattisissa tehtävissä: 70 % tarkkuus (verrattuna 13,5 %:iin, kun pelkkää perustusmallia käytetään). • MMLU-Pro:lla: saavutti 83 % (76 % lähtötilanteessa). • SRDD-ohjelmistokehityksestä: saavutettiin 76,4 % (lähtötaso 60,6 %). Näihin vahvistuksiin liittyy tokenien kulutuksen väheneminen. Tutkimus osoittaa, että token-kustannukset jatkavat laskuaan samalla kun suorituskyky paranee koko koulutuksen ajan. He osoittivat myös, että agentin valintaprosessi täyttää Markovin ominaisuuden, eli nykyinen tila määrittää optimaalisen seuraavan agentin ilman tarvetta seurata koko historiaa. Niin: Tekoälykehittäjille oppimisen yksinkertaisuus voittaa huolellisen suunnittelun monimutkaisuuden. Koulutettu reititin, jossa on muutama erikoistunut agentti, ylittää hyvin suunnitellut työnkulut ja vähentää laskennallista kuormitusta.
Paperilinkki:
11,53K