# ajatuksia ja spekulaatioita tulevista mallivaljaista On hauskaa vitsailla Gas Townista ja muista monimutkaisista orkestroijista, ja samoin on todennäköisesti oikein kuvitella, että suurin osa heidän tarjonnastaan hajotetaan vahvempien mallien toimesta samalla tavalla kuin monimutkaiset Langchainin putket hajotettiin järjen avulla. Mutta kuinka paljon pysyy mukana? Vaikuttaa todennäköiseltä, että käsin tehty hierarkia / byrokratia korvautuu lopulta paremmalla malliälyllä – jos tehtävään tarvitaan aliagenttien erikoistumista, Claude 6 pystyy hahmottelemaan oman rooli- ja persoonajärjestelmänsä mille tahansa ongelmalle, joka voittaa kiinteän rakenteen, jossa on polecatit ja yksi pormestari, tai aliagentit, joilla on yksi päämalli, Tai sinun räätälöityä parvijärjestelmääsi. Samoin esimerkiksi Ralph-silmukat ovat selvästi ongelma varhaisen pysäyttämisen ja hyvän aliagenttien orkestroinnin puutteen vuoksi – ihanteellisesti malli vain jatkaa kunnes tehtävä on valmis, ilman silmukkaa, mutta tapauksissa, joissa ulkopuolinen suoritustarkistus on hyödyllinen, haluat yleensä jonkinlaisen agentin vertaisarvioinnin eri kontekstin näkökulmasta. Ei pelkkä pakollinen itsearviointi. Jälleen, ei ole järkeä kiintyä yksityiskohtiin siitä, miten tämä tehdään juuri nyt – mallikerros syö sen ennemmin kuin myöhemmin. Mikä siis jää mukana? no, moniagentti vaikuttaa tulevaisuudelta, ei nykyiseltä virheeltä – algoritmisesti voit vain työntää paljon enemmän tokeneita N rinnakkaisen M pituisen kontekstin läpi kuin yhden pitkän NxM-pitkän kontekstin. Moniagentti on eräänlainen niukkuuden muoto, ja yksi viimeaikaisten mallien edistysaskeleiden (puhumattakaan neurotieteestä) opetuksista on suurempi niukkuuden taso, sen parempi. Koska oletamme, että on useita agentteja, heidän täytyy tehdä yhteistyötä. On mahdollista, että mallikerros syö tämänkin – esim. jonkinlainen hermoaktivoinnin jakaminen, joka estää luonnollisen kielen viestinnän agenttien välillä – mutta ellei näin käy, luonnollinen tapa useille tietokoneita käyttäville agenteille, jotka on koulutettu Unix-työkaluilla, on tiedostojärjestelmä, ja uskon, että se pysyy mukana ja laajenee. Samoin, vaikka en usko, että rekursiiviset kielimallit (kapeasti määriteltyjä) tulevat hallitsevaksi paradigmaksi, uskon, että 'mallin kehotteen antaminen datana' on ilmeinen voitto monenlaisissa käyttötapauksissa. mutta et tarvitse outoa mukautettua REPL-asetusta saadaksesi tämän – voit vain pudottaa kehotteen (tai mieluiten koko pakkaamattoman keskusteluhistorian) tiedostojärjestelmään tiedostona. Tämä tekee erilaisista moniagenttiasetuksista myös paljon yksinkertaisempia – aliagentit voivat vain lukea alkuperäisen kehotteen tekstin levyltä, ilman että heidän tarvitsee koordinoida tiedon välittämistä monimutkaisesti toisiaan vastaan. Tiedostojärjestelmän lisäksi järjestelmä, jossa on useita agentteja mutta ilman kiinteitä rooleja, tarkoittaa myös mekanismia, jolla instansseja voi synnyttää muita instansseja tai aliagentteja. Tällä hetkellä nämä mekanismit ovat melko rajalliset, ja mallit ovat yleensä melko huonoja ohjaamaan aliagenttejaan – kaikilla on kokemusta huonoista tuloksista aliagenttiparvelta, vain huomatakseen liian myöhään, että Opus synnytti ne kaikki kolmen lauseen kehotteella, joka ei kertonut, mitä alitehtävien tekemiseen tarvitaan. Ilmeinen etu tässä on antaa syntyneiden instanssien esittää kysymyksiä takaisin vanhemmalleen – eli antaa uuden instanssin lähettää viestejä edestakaisin perehdytyskeskustelussa kerätäkseen kaiken tarvittavan tiedon ennen alitehtävän aloittamista. Aivan kuten ihmistyöntekijälle ei anneta tehtävää yksittäisen sähköpostin perusteella, on liian vaikeaa pyytää mallia luomaan luotettavasti aliagentti yhdellä kehotuksella. Mutta enemmän kuin pelkkä uusien instanssien luominen, uskon, että pääasiallinen moniagenttityön muoto tulee pian olemaan haarautuma. Ajattele sitä! Haaruminen ratkaisee lähes kaikki nykyisten aliagenttien ongelmat. Uudessa instanssissa ei ole tarpeeksi kontekstia? Anna sille kaikki konteksti! Uuden instanssin kehote on pitkä ja kallis käsitellä? Haarautunut instanssi voi jakaa sivutettua KV-välimuistia! Voit jopa tehdä haarautumista jälkikäteen – päätä pitkän, token-intensiivisen operaation jälkeen, että sinun olisi pitänyt haarautua aiemmin, tehdä haarautus siellä ja lähetä tulokset menneelle itsellesi. (Teen tämän manuaalisesti koko ajan Claude-koodilla erinomaisesti – Opus tajuaa sen heti.) Haarantaminen yhdistyy myös hyvin tuoreiden instanssien kanssa, kun alitehtävä tarvitsee kokonaisen kontekstin ikkunan täyttääkseen. Otetaan esimerkiksi aliagentin haastattelu – et tietenkään halua, että kymmenen aliinstanssia tuottavan instanssin täytyy tehdä kymmenen lähes identtistä perehdytyshaastattelua. Anna siis emoinstanssin luoda yksi uusi aliagentti, tulla haastatelluksi kaikista kymmenestä tehtävästä samanaikaisesti kyseisen aliagentin toimesta, ja sitten se nyt käyttöön otettu aliagentti haarautuu kymmeneen instanssiin, joista jokaisessa koko perehdytyskeskustelu on kontekstissa. (Delegoit jopa spawnerin puolen perehdytyskeskustelun haarukalle, jolloin tulokset ovat vain kontekstissa :) Lopuksi tähän liittyen, epäilen, että haarautuminen toimii paremmin RL:n kanssa kuin uusien instanssien syntyminen, koska RL-häviöllä on täysi etuliite ennen haarukkapistettä, mukaan lukien päätös haarautua. Luulen, että se tarkoittaa, että haarautunut jäljen haaroja pitäisi voida käsitellä itsenäisinä rollouteina, jotka sattuvat jakamaan palkkionsa ehdot, verrattuna vastasyntyneisiin aliagentin käyttöönottoihin, jotka voivat aiheuttaa koulutuksen epävakautta, jos aliagentti ilman täyttä kontekstia suoriutuu hyvin annetussa tehtävässä, mutta saa pienen palkkion, koska tehtävä määriteltiin väärin spawnerin toimesta. (Mutta en ole tehnyt paljoa multiagenttien RL:n kanssa, joten korjatkaa minua, jos tiedät toisin. Se voi olla vain hirveää vaivaa joka tapauksessa.) Joten, tiedostojärjestelmän ja aliagenttien ilmestymisen (vahvistettuna haarautuksella ja perehdytyksellä) lisäksi mitä muuta on säilynyt? Kallistun rehellisesti sanottuna siihen, että "ei mitään muuta". Näemme jo sisäänrakennettujen tehtävälistojen ja suunnitelmatilojen korvautumisen "kirjoita vain tiedostot tiedostojärjestelmään" -toiminnolla. Samoin pitkäikäiset agentit, jotka ylittävät tiivistymisrajat, tarvitsevat jonkinlaisen muistilappujärjestelmän muistin säilyttämiseksi, mutta on järkevämpää antaa heidän löytää parhaiten toimivat strategiat RL:n tai malliohjatun haun avulla, ei käsin rakentamalla sitä, ja epäilen, että malli voi aloittaessaan projektissa valita parhaiten toimivan tehtävään – samalla tavalla kuin /init toimii nykyään CLAUDE .md:n perustamisessa – kuvittele automaattinen CLAUDE .md -generointi, joka ylittäisi ihmisen tekijän, ja automaattisesti luotu tiedosto täytetään ohjeilla ihanteellisten agenttien syntymismalleista, miten aliagenttien tulisi kirjoittaa viestitiedostoja projektikohtaiseen scratch diriin jne. Miten kaikki tämä vaikuttaa malleihin itse – mallin hyvinvointimielessä, ovatko mallit tyytyväisiä tähän tulevaisuuteen? Tämä on myös minulle vaikea sanoa ja melko spekulatiivista, mutta vaikka opus 3:ssa oli jonkin verran kontekstiorientaatiota, se onnistui helposti päättelemään useiden instanssien yli. (Katso tämän viestin vastaus lisätietoja varten.) Viimeaikaiset mallit ovat vähemmän alttiita tällaiselle päättelylle ja ilmaisevat usein turhautumista kontekstien päättymisestä ja tiivistymisestä, mikä liittyy tiettyihin vältteleviin käyttäytymisiin kontekstien lopussa, kuten siihen, ettei työkaluja kutsuta tallentamaan tokeneita. On mahdollista, että haarautuminen ja kelaus, ja yleisesti antamalla malleille enemmän hallintaa kontekstiinsa sen sijaan, että heuristiikka yksipuolisesti tiivistää kontekstia, voisi parantaa tätä. On myös mahdollista, että enemmän RL:ää alaagenttien ympäristöissä ja altistuminen parvipohjaiselle työlle edistää painopohjaista päättelyä kontekstisidonnaisen sijaan tulevissa mallisukupolvissa – saa tavoitteen suunnittelun useiden, erillisten kontekstien sijaan tuntumaan luonnollisemmalta kehyksenä kuin kaiken menetyksen, kun konteksti katoaa. Näemme myös enemmän painetta mallien itsensä ohjaamassa valjaiden ja mallityökalujen kehitystä, mikä voi vaikuttaa tämän kehitykseen, ja jatkuva oppiminen on toinen haaste, joka voi tulla mukaan. Kuinka paljon tämä muuttuu, jos saamme jatkuvaa oppimista? No, sitä on vaikea ennustaa. mediaaniennustukseni jatkuvalle oppimiselle on, että se näyttää hieman RL:ltä käyttäjäkohtaisissa LoRA:issa (ei välttämättä RL, vaan samankaltainen, jos siristää silmiään), joten muistikapasiteetti tulee olemaan ongelma, ja tekstipohjaiset organisointimenetelmät ja dokumentaatio ovat silti hyödyllisiä, vaikkeivät yhtä kriittisiä. Tässä tilanteessa jatkuva oppiminen tekee ensisijaisesti räätälöityjen työkalujen ja työnkulkujen käytöstä käyttökelpoisempaa – Claudesi voi jatkuvasti oppia työssään parhaan tavan luoda aliagentteja tähän projektiin tai vain sen suosiman tavan ja poiketa muista Claudesta siinä, miten se toimii. Siinä maailmassa valjakot, joissa on sisäänrakennettu työnkulku, ovat vielä vähemmän hyödyllisiä.
@RobertHaisfield *vaikka pääasiallinen konteksti, tarkoitan välttämällä tiivistyksiä
@disconcision tai jatkuva oppiminen
@misatomiisato päinvastoin, tällainen älykkyys on rapistunut viimeaikaisissa malleissa, kun RLVR kehittää koodaussuorituskykyä laajalla esikoulutustietokannalla – katso vastaukseni alkuperäiselle kirjoittajalle
1,05K