Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich mag diese Forschungsrichtung wirklich!
Seit langem spreche ich über die Analogie "Gehirn vs. Datenbank" von SSMs vs. Transformern. Eine Erweiterung davon, die ich ein paar Mal beiläufig erwähnt habe, ist, dass ich denke, dass sich die Abwägungen ändern, wenn wir anfangen, über den Aufbau von multi-komponenten *Systemen* nachzudenken, anstatt über einzelne Modelle.
Wenn man zum Beispiel der Intuition folgt, dass moderne hybride Modelle das SSM als die Haupt-"gehirnähnliche" Verarbeitungseinheit verwenden, während die Aufmerksamkeit hauptsächlich für "datenbankähnliches" Caching zur Unterstützung präziser Abrufe dient, dann habe ich hypothetisiert, dass ein möglicherweise optimaleres System ein reines SSM-Sprachmodell sein könnte, kombiniert mit expliziten externen Wissensdatenbanken und Kontext-Caches. Dies ist viel eher analog zur menschlichen Intelligenz, die hauptsächlich vom Gehirn (einem SSM) angetrieben wird, unterstützt durch externe Wissensspeicher (Bücher, das Internet) und Werkzeugnutzung.
Dieses Papier zeigt ziemlich interessante Ergebnisse, dass SSMs in diesem Bereich von agentischen Modellen, die mit interaktiver Werkzeugnutzung arbeiten, tatsächlich eine sehr günstige Leistung im Vergleich zu Transformern zu haben scheinen. Ich freue mich, dass die Intuition validiert wurde, und ich hoffe, dass weitere Forschungen in diese Richtung fortgesetzt werden!
Top
Ranking
Favoriten

