Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg liker virkelig denne forskningsretningen!
I lang tid har jeg snakket om "hjerne vs. database"-analogien til SSM-er vs transformatorer. En utvidelse av dette som jeg har nevnt på forhånd et par ganger, er at jeg tror at avveiningene endres når vi begynner å tenke på å bygge flerkomponent *systemer* i stedet for enkeltmodeller.
For eksempel, hvis man abonnerer på intuisjonen om at moderne hybridmodeller bruker SSM som den viktigste "hjernelignende" prosesseringsenheten mens oppmerksomheten først og fremst er på "databaselignende" caching for å hjelpe til med presis gjenfinning, så antok jeg at et mer optimalt system kanskje kunne være en ren SSM-språkmodell kombinert med eksplisitte eksterne kunnskapsdatabaser og kontekstcacher. Dette er mye mer analogt med menneskelignende intelligens som først og fremst drives av hjernen (en SSM) hjulpet av eksterne kunnskapslagre (bøker, internett) og verktøybruk.
Denne artikkelen viser ganske interessante resultater som SSM-er ser ut til å ha svært gunstig ytelse sammenlignet med transformatorer i dette regimet av agentiske modeller som opererer med interaktiv verktøybruk. Glad for å se intuisjonen validert, og jeg håper mer forskning fortsetter langs disse linjene!
Topp
Rangering
Favoritter

