DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ich mag diese Forschungsrichtung wirklich! Seit langem spreche ich über die Analogie "Gehirn vs. Datenbank" von SSMs vs. Transformern. Eine Erweiterung davon, die ich ein paar Mal beiläufig erwähnt habe, ist, dass ich denke, dass sich die Abwägungen ändern, wenn wir anfangen, über den Aufbau von multi-komponenten *Systemen* nachzudenken, anstatt über einzelne Modelle. Wenn man zum Beispiel der Intuition folgt, dass moderne hybride Modelle das SSM als die Haupt-"gehirnähnliche" Verarbeitungseinheit verwenden, während die Aufmerksamkeit hauptsächlich für "datenbankähnliches" Caching zur Unterstützung präziser Abrufe dient, dann habe ich hypothetisiert, dass ein möglicherweise optimaleres System ein reines SSM-Sprachmodell sein könnte, kombiniert mit expliziten externen Wissensdatenbanken und Kontext-Caches. Dies ist viel eher analog zur menschlichen Intelligenz, die hauptsächlich vom Gehirn (einem SSM) angetrieben wird, unterstützt durch externe Wissensspeicher (Bücher, das Internet) und Werkzeugnutzung. Dieses Papier zeigt ziemlich interessante Ergebnisse, dass SSMs in diesem Bereich von agentischen Modellen, die mit interaktiver Werkzeugnutzung arbeiten, tatsächlich eine sehr günstige Leistung im Vergleich zu Transformern zu haben scheinen. Ich freue mich, dass die Intuition validiert wurde, und ich hoffe, dass weitere Forschungen in diese Richtung fortgesetzt werden!

Top

Ranking

Favoriten