Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Voi helvetti... Stanford osoitti juuri, miksi LLM:t kuulostavat fiksuilta, mutta epäonnistuvat silti, kun todellisuus vastustaa.
Tämä artikkeli käsittelee brutaalia epäonnistumistilaa, jonka kaikki rakennusagentit ovat nähneet: anna mallille alimääritelty tehtävä, ja se näkee iloisesti harhoja puuttuvista osista, tuottaen suunnitelman, joka näyttää sujuvalta ja romahtaa toteutuksessa.
Ydinoivallus on yksinkertainen mutta tuhoisa pelkästään kehotteisiin perustuville lähestymistavat: päättely katkeaa, kun ennakkoehdot ovat tuntemattomia. Ja useimmat todelliset tehtävät ovat täynnä tuntemattomia.
Stanfordin ratkaisu on nimeltään Self-Querying Bidirectional Categorical Planning (SQ-BCP), ja se pakottaa mallit lopettamaan teeskentelyn tietävänsä asioita, joita eivät tiedä.
Sen sijaan, että oletettaisiin puuttuvia faktoja, jokainen teko seuraa eksplisiittisesti edellytyksiään seuraavasti:
• Tyytyväinen
• Rikottu
• Tuntematon
Tuntematon on avain. Kun malli osuu tuntemattomaan, sitä ei sallita edetä.
Sen täytyy joko:
1. Kysy kohdennettu kysymys puuttuvan faktan ratkaisemiseksi
tai
2. Ehdota siltatoimintoa, joka asettaa ehdon ensin (mittaa, tarkista, valmistele jne.)
Vasta kun kaikki ennakkoehdot on ratkaistu, suunnitelma voi jatkua.
Mutta tässä on todellinen läpimurto: suunnitelmia ei hyväksytä, koska ne näyttävät olevan lähellä tavoitetta.
Ne hyväksytään vain, jos ne läpäisevät virallisen vahvistusvaiheen kategoriateettisilla takaisinvetotarkistuksilla. Samankaltaisuuspisteitä käytetään vain sijoituksessa, ei koskaan oikeellisuudessa.
Käännös: kauniit suunnitelmat eivät lasketa. Suoritettavat suunnitelmat tekevät niin.
Tulokset ovat villejä.
WikiHow- ja RecipeNLG-tehtävissä, joissa on piilotettuja rajoituksia:
• Resurssirikkomukset laskivat 26 %:sta → 14,9 %:iin
• Ja 15,7 % → 5,8 %
samalla kun pidämme kilpailukykyiset laatupisteet.
Lisäetsintä ei auttanut.
Pidempi ajatusketju ei auttanut.
Jopa Self-Ask yksinään jätti rajoitteet huomiotta.
Todellisuudessa toimi epävarmuuden käsittely ensiluokkaisena esineenä ja kieltäytyminen etenemästä ennen kuin se on ratkaistu.
Tämä artikkeli vetää hiljaa viivan hiekkaan:
Agentin epäonnistumiset eivät liity mallin koosta.
Ne ovat teeskentelyä, että puutteellinen tieto on täydellistä.
Jos haluat agentteja, jotka näyttelevät, eivät vain kerro, tämä on suunta eteenpäin.

38
Johtavat
Rankkaus
Suosikit
