Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jorge Bravo Abad
Profesor fizyki @UAM_Madrid | Profesor. Kierownik projektu AI for Materials Lab | Dyrektor Laboratorium Sztucznej Inteligencji dla Materiałów.
Architektury inspirowane neurobiologią do budowy prawdziwie adaptacyjnej AI
Nowoczesne systemy AI są potężne, ale kruche. Wytrenuj model, wdroż go, a następnie obserwuj, jak wydajność spada, gdy świat się zmienia. Ponownie trenuj na nowych danych, a model zapomina, co wiedział. Ten cykl produkuje systemy, które doskonale radzą sobie z statycznymi benchmarkami, ale mają trudności z ciągłą adaptacją — coś, co inteligencja biologiczna robi bez wysiłku.
Mysz potrafi nauczyć się w kilku próbach znajdować wodę w nowym labiryncie w około dziesięciu próbach, co jest tempem uczenia się 1 000 razy szybszym niż tradycyjne zadania laboratoryjne. Jednak nasze najbardziej zaawansowane sieci neuronowe cierpią na katastrofalne zapominanie, gdy są proszone o uczenie się sekwencyjnie.
Mózg oferuje inną architekturę. Działa nie jako jedna splątana sieć, ale jako inteligentnie połączone, wyspecjalizowane moduły — kora wzrokowa przetwarzająca krawędzie, kora ruchowa obliczająca w przestrzeni sił, obszary przedczołowe śledzące pamięć zorganizowaną według zadań. Każdy moduł buduje wewnętrzne modele aktualizowane przez błędy predykcji, gdy oczekiwane wyniki różnią się od rzeczywistości. Te sygnały nauczania zostały teraz odkryte w obwodach sensorycznych, motorycznych i nagradzających.
Mackenzie Weygandt Mathis syntetyzuje te spostrzeżenia w propozycję dla adaptacyjnej agentnej AI. Zamiast dążyć do coraz większych monolitycznych modeli bazowych, argumentuje za systemami specyficznych dla dziedziny enkoderów, których wyjścia są wspólnie optymalizowane w dzielonej przestrzeni latentnej. Każdy enkoder jest monitorowany przez sygnały błędu predykcji — solidne enkodery pozostają "zablokowane", podczas gdy te, które wykazują obniżoną wydajność, są "odblokowywane" do ciągłego uczenia się za pomocą odtwarzania pamięci lub inteligencji synaptycznej, bez wyłączania całego systemu.
Szersza zasada: poprzez strukturalizowanie AI wokół inspirowanej neurobiologią modularności i aktualizacji opartej na błędach predykcji, zamiast monolitycznej skali, staje się możliwe przejście od statycznych modeli do prawdziwie adaptacyjnej inteligencji — systemów, które ciągle udoskonalają swoje modele świata poprzez interakcję z nim.
Artykuł:

24
Czy ludzie uczą się jak transformatory?
To pytanie brzmi niemal filozoficznie, ale Pesnot Lerousseau i Summerfield przekształcili je w rygorystyczny eksperyment. Szkolili zarówno ludzi (n = 530), jak i małe sieci transformatorowe na tym samym zadaniu uczenia się reguł, a następnie manipulowali jedną zmienną: statystycznym rozkładem przykładów treningowych—od całkowicie zróżnicowanych (każdy przykład unikalny) do wysoce redundantnych (te same elementy powtarzane w kółko).
Wynik jest uderzający. Zarówno ludzie, jak i transformatory wykazują niemal identyczną wrażliwość na tę manipulację. Trenując na zróżnicowanych danych, uczniowie generalizują reguły do nowych sytuacji ("uczenie się w kontekście"). Trenując na danych redundantnych, zapamiętują konkretne przykłady ("uczenie się w wagach"). Przejście między strategiami następuje w tym samym krytycznym punkcie (wykładnik Zipfa α ≈ 1) zarówno w systemach biologicznych, jak i sztucznych. Żaden z nich nie może łatwo robić obu rzeczy—dopóki nie podasz im złożonego rozkładu łączącego różnorodność i redundancję, w którym to momencie zarówno ludzie, jak i transformatory stają się "podwójnymi uczniami."
Ale tutaj się różnią: ludzie korzystają z programów nauczania. Prezentując różnorodne przykłady na początku, ludzie odkrywają ogólną regułę bez utraty zdolności do zapamiętywania później. Transformatory, w przeciwieństwie do tego, cierpią na katastrofalną interferencję—cokolwiek nauczą się drugie, nadpisuje to, co przyszło pierwsze.
Implikacja dla AI i edukacji: struktura danych treningowych ma znaczenie tak samo jak ich treść. I chociaż transformatory mogą w zaskakujący sposób dorównywać ludzkiemu uczeniu się, wciąż brakuje im elastyczności, która pozwala nam korzystać z dobrze zaprojektowanych programów nauczania.
Artykuł:

42
Dlaczego sieci neuronowe uczą się na krawędzi chaosu
Kiedy trenujesz sieć neuronową, aktualizacje parametrów nie są rozkładem normalnym. Mają długi ogon — rzadkie duże skoki przerywają wiele małych dostosowań. Ten wzór pojawia się w MLP, CNN i Transformerach, w MNIST i CIFAR-10, wczesnym szybkim uczeniu i późnej konwergencji. Jest podejrzanie uniwersalny.
Xin-Ya Zhang i Chao Tang twierdzą, że to nie jest dziwactwo stochastycznego spadku gradientu ani szumów mini-batch. To sygnatura samorganizującej się krytyczności, wynikająca z fundamentalnego kompromisu: zasada maksymalnej entropii popycha sieć do swobodnego eksplorowania, podczas gdy ograniczenie wzajemnej informacji zmusza aktualizacje do pozostawania istotnymi dla zadania. Zrównoważ te dwie siły, a otrzymasz statystyki potęgowe — ten sam wzór skalowania, który można zaobserwować w trzęsieniach ziemi, lawinach neuronalnych i rynkach finansowych.
Dowody są przekonujące. Wykładnik potęgowy pozostaje niezwykle stabilny przez cały proces treningu, nawet gdy strata spada o rzędy wielkości. Sam krajobraz straty pokazuje strukturę wieloskalową: eksponencjalna gładkość pod małymi perturbacjami (lokalnie płaskie baseny), przechodząca w szorstkość potęgową na większych skalach. Nawet czas dużych aktualizacji podąża za statystykami o długim ogonie — duże zdarzenia uczenia grupują się razem, zamiast występować losowo, z wykładnikami w okolicach 2.5–2.7.
To, co czyni to koncepcyjnie satysfakcjonującym, to teoretyczne wyprowadzenie z pierwszych zasad. Zaczynając od maksymalizacji entropii pod ograniczeniem informacyjnym i używając sformułowania całki ścieżkowej rozbieżności KL przez przestrzeń parametrów, autorzy dokładnie odzyskują zaobserwowane zachowanie skalowania. Żadne dostrajanie, żadnych ad hoc założeń.
Implikacje są głębokie: uczenie się sieci neuronowych to nie tylko optymalizacja — to proces fizyczny w stanie nie równowagi, rządzony przez te same zasady statystyczne, które kształtują złożone systemy w całej naturze. Zrozumienie tego może pomóc w projektowaniu bardziej efektywnych algorytmów uczenia i wyjaśnić, dlaczego SGD generalizuje lepiej niż metody adaptacyjne, które tłumią duże eksploracyjne aktualizacje.
Artykuł:

51
Najlepsze
Ranking
Ulubione
