Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bardzo podoba mi się ten kierunek badań!
Od dłuższego czasu mówię o analogii "mózg vs. baza danych" SSM-ów w porównaniu do Transformerów. Rozszerzeniem tego, o którym wspomniałem kilka razy mimochodem, jest to, że myślę, że kompromisy się zmieniają, gdy zaczynamy myśleć o budowaniu wielokomponentowych *systemów* zamiast pojedynczych modeli.
Na przykład, jeśli ktoś przyjmuje intuicję, że nowoczesne modele hybrydowe używają SSM jako głównej jednostki przetwarzania "mózgopodobnego", podczas gdy uwaga jest głównie wykorzystywana do "baza danych" w celu pomocy w precyzyjnym odzyskiwaniu, to hipotezowałem, że być może bardziej optymalnym systemem mógłby być czysty model językowy SSM połączony z wyraźnymi zewnętrznymi bazami wiedzy i pamięciami kontekstowymi. To jest znacznie bardziej analogiczne do inteligencji podobnej do ludzkiej, która jest głównie napędzana przez mózg (SSM) wspomagany przez zewnętrzne źródła wiedzy (książki, internet) i korzystanie z narzędzi.
Ten artykuł pokazuje dość interesujące wyniki, że SSM-y wydają się mieć bardzo korzystne wyniki w porównaniu do Transformerów w tym reżimie modeli agentowych działających z interaktywnym korzystaniem z narzędzi. Cieszę się, że intuicja została potwierdzona i mam nadzieję, że więcej badań będzie kontynuowanych w tym kierunku!
Najlepsze
Ranking
Ulubione

