Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

alphaXiv
Forskning med hög kvalitet
Apple har precis bevisat att det inte finns något behov av stormodell-hyperparametersökningar, eftersom engångssökning i små modeller räcker!
Denna artikel introducerar Complete(d)P, en "skalkorrekt" träningsparametrisering som låter dig justera hyperparametrar (LR, AdamW, viktminskning, init, residual multiplikatorer) på en liten modell och återanvända dem oförändrade vid skalning av bredd, djup, batchstorlek och träningshorisont, även per modul.
I experiment överförs inställningar vid 50 meter till ~600 gånger större körningar, vilket minskar träningen till samma förlust med ~2,3 gånger i liten skala och ger ~1,32 gånger hastighetsökning vid 7,2 miljarder

DeepSeek släppte precis ett riktigt bra papper för att avsluta 2025
"mHC: Mångfaldsbegränsade hyperkopplingar"
Hyper-anslutningar omvandlar den enda kvarvarande "motorvägen" i transformatorerna till n parallella filer, och varje lager lär sig hur man blandar och delar signal mellan filerna.
Men om varje lager godtyckligt kan förstärka eller krympa banor, gör resultatet av dessa omkastningar över djupet att signaler/gradienter exploderar eller tonar ut.
Så de tvingar varje blandning att vara massbevarande: en dubbelstokastisk matris (icke-negativ, varje rad/kolumn summeras till 1). Varje lager kan bara omfördela signalen över banor, inte skapa eller förstöra den, så den djupa hoppbanan förblir stabil medan funktionerna fortfarande blandas!
med n=4 lägger det till ~6,7 % träningstid, men minskar slutförlusten med ~0,02 och behåller värsta fallets bakåtvinst ~1,6 (jämfört med ~3000 utan begränsningen), med konsekventa benchmarkvinster över hela linjen

49
RoPE är fundamentalt bristfälligt.
Denna artikel visar att RoPE blandar ihop "vad" en token är med "var" den är, så modellen kan inte pålitligt resonera om relativa positioner oberoende av tokenidentitet.
Till exempel. den effektiva idén om "3 tokens till vänster" beror subtilt på vilka bokstäver som är involverade, så att fråga "vilken bokstav är 3 till vänster om Z i en sekvens 'ABSCOPZG'" blir svårare än det borde vara eftersom den positionella linjalen själv skiftar med innehållet.
Så denna artikel föreslår PoPE, som ger modellen en fast positionslinjal genom att koda där tokens är oberoende av vad de är, vilket låter "innehåll" endast kontrollera matchstyrkan medan "position" ensam styr avståndet.
Med PoPE som uppnår 95 % noggrannhet skulle RoPE fastna på 11 % på indirekt indexeringsuppgift

48
Topp
Rankning
Favoriter
