Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jorge Bravo Abad
Prof. de Fizică @UAM_Madrid | Profesor. PI al laboratorului AI for Materials | Director al laboratorului AI pentru materiale.
Arhitecturi inspirate de neuroștiințe pentru construirea unei AI cu adevărat adaptive
Sistemele moderne de inteligență artificială sunt puternice, dar fragile. Antrenează un model, implementează-l și privește cum performanța se degradează pe măsură ce lumea se schimbă. Reantrenează pe date noi, iar modelul uită ce știa. Acest ciclu produce sisteme care excelează la repere statice, dar care se confruntă cu dificultăți în adaptarea continuă — lucru pe care inteligența biologică îl gestionează fără efort.
Un șoarece poate învăța rapid să găsească apă într-un labirint nou în aproximativ zece încercări, o rată de învățare de 1.000 de ori mai rapidă decât sarcinile tradiționale de laborator. Totuși, cele mai sofisticate rețele neuronale ale noastre suferă o uitare catastrofală atunci când li se cere să învețe secvențial.
Creierul oferă o arhitectură diferită. Funcționează nu ca o rețea unică încâlcită, ci ca module specializate interconectate inteligent—margini de procesare a cortexului vizual, calcul al cortexului motor în spațiu de forță, regiuni prefrontale care urmăresc memoria structurată de sarcini. Fiecare modul construiește modele interne actualizate prin erori de predicție atunci când rezultatele așteptate se abat de la realitate. Aceste semnale de învățare semnate au fost descoperite acum în circuitele senzoriale, motorii și de recompensă.
Mackenzie Weygandt Mathis sintetizează aceste perspective într-o propunere pentru AI agentică adaptivă. În loc să urmărească modele de fundație monolitice din ce în ce mai mari, ea susține sisteme de encodere specifice domeniului, ale căror ieșiri sunt optimizate împreună într-un spațiu latent comun. Fiecare encoder este monitorizat prin semnale de eroare de predicție — encoderele robuste rămân "blocate", în timp ce cele cu performanță degradată sunt "deblocate" pentru învățare continuă folosind reluarea memoriei sau inteligența sinaptică, fără a scoate întregul sistem din funcțiune.
Principiul mai larg: prin structurarea AI în jurul modularității inspirate de neuroștiință și a actualizării bazate pe eroare de predicție, în loc de o scară monolitică, devine posibil să trecem dincolo de modelele statice către o inteligență cu adevărat adaptativă — sisteme care își rafinează continuu modelele lumii prin interacțiunea cu aceasta.
Hârtie:

27
Oamenii învață ca transformerele?
Este o întrebare care sună aproape filosofic, dar Pesnot Lerousseau și Summerfield au transformat-o într-un experiment riguros. Au antrenat atât oameni (n = 530), cât și rețele mici de transformatoare pe aceeași sarcină de învățare a regulilor, apoi au manipulat o singură variabilă: distribuția statistică a exemplelor de antrenament—de la complet diverse (fiecare exemplu unic) la foarte redundante (aceleași elemente repetate la nesfârșit).
Rezultatul este izbitor. Atât oamenii, cât și transformerii manifestă o sensibilitate aproape identică la această manipulare. Se antrenează pe date diverse, iar cursanții generalizează regulile la situații noi ("învățare în context"). Se antrenează pe date redundante, iar ei memorează exemple specifice ("învățare în ponderi"). Tranziția între strategii are loc în același punct critic (exponentul Zipf α ≈ 1) atât în sistemele biologice, cât și în cele artificiale. Niciunul nu poate face ambele cu ușurință — până când le oferi o distribuție compozită care combină diversitate și redundanță, moment în care atât oamenii, cât și transformerii devin "dubli învățăcei".
Dar aici diferențează: oamenii beneficiază de curricula. Prezintă exemple diverse de la început și oamenii descoperă regula generalizabilă fără să-și piardă capacitatea de a memora mai târziu. Transformerele, în schimb, suferă interferențe catastrofale — orice află a doua a doua suprascrie ce a venit mai întâi.
Implicația pentru AI și educație deopotrivă: structura datelor de antrenament contează la fel de mult ca și conținutul lor. Și, deși transformerii pot egala învățarea umană în moduri surprinzătoare, încă le lipsește flexibilitatea care ne permite să beneficiem de curricula bine concepută.
Hârtie:

45
De ce rețelele neuronale învață la marginea haosului
Când antrenezi o rețea neuronală, actualizările parametrilor nu sunt distribuite în mod normal. Sunt cu coadă grea — rarele sărituri mari punctează multe ajustări mici. Acest tipar apare în MLP-uri, CNN-uri și Transformers, în MNIST și CIFAR-10, în învățarea rapidă timpurie și convergența târzie. Este suspect de universal.
Xin-Ya Zhang și Chao Tang susțin că aceasta nu este o ciudățenie a coborârii stocastice a gradientului sau a zgomotului mini-batch. Este o semnătură a criticității auto-organizate, care rezultă dintr-un compromis fundamental: principiul entropiei maxime împinge rețeaua să exploreze liber, în timp ce o constrângere reciprocă de informație obligă actualizările să rămână relevante pentru sarcină. Echilibrând aceste două forțe, obții statistici de lege de putere — același comportament de scalare văzut în cutremure, avalanșe neuronale și piețele financiare.
Dovezile sunt convingătoare. Exponentul legii puterii rămâne remarcabil de stabil pe tot parcursul antrenamentului, chiar dacă pierderile scade cu ordine de mărime. Peisajul de pierdere în sine prezintă o structură multiscală: neteziune exponențială sub perturbații mici (bazine local plate), tranziție către robustețe cu legi de putere la scară mai mare. Chiar și momentul actualizărilor mari urmează statistici cu coadă grea — evenimentele mari de învățare se grupează în loc să apară aleatoriu, cu exponenți în jur de 2,5–2,7.
Ceea ce face acest lucru conceptual satisfăcător este derivarea teoretică din principiile de bază. Pornind de la maximizarea entropiei sub o constrângere informațională și folosind o formulare integrală de cale a divergenței KL prin spațiul parametrilor, autorii recuperează exact comportamentul de scalare observat. Fără ajustări fine, fără presupuneri ad-hoc.
Implicațiile sunt profunde: învățarea rețelelor neuronale nu este doar optimizare — este un proces fizic în afara echilibrului, guvernat de aceleași principii statistice care modelează sisteme complexe în întreaga natură. Înțelegerea acestui lucru ar putea ghida proiectarea unor algoritmi de învățare mai eficienți și ar putea explica de ce SGD se generalizează mai bine decât metodele adaptive care suprimă actualizările exploratorii de amploare.
Hârtie:

54
Limită superioară
Clasament
Favorite
