Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bygge med AI-agenter @dair_ai • Forrige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Jeg deler innsikt om hvordan du bygger med LLM-er og AI-agenter ⬇️
Interessant forskning fra Meta om trender innen maskinvareskalering.
Flere GPU-er betyr ikke alltid raskere trening.
Standardmetoden for å skalere LLM-trening i dag er fortsatt å kaste mer maskinvare på problemet. Flere akseleratorer, mer parallellisme, mer datakraft.
Men det finnes et tak som de fleste lag ikke ser før de når det.
Denne nye forskningen viser at det å skalere det totale antallet akseleratorer for trening av store modeller raskt gir avtagende avkastning, selv med optimalisert maskinvare og parallelliseringsstrategier.
Forskerne testet Llama-2-modeller (1B til 70B parametere) på 8 til 2 048 GPU-er som dekker V100, A100 og H100-maskinvare. Hva fant de? Når man skalerte fra 128 til 2 048 GPU-er, sank gjennomstrømningen med 37,22 %, mens strømforbruket per GPU bare falt med 5,87 %.
Årsaken er kommunikasjonsoverhead. I stor skala blir AllGagat- og ReduceScatter-operasjoner (to MPI-primitiver) flaskehalser. Størstedelen av kommunikasjonen blir eksponert, og beregninger kan ikke lenger skjule latensen.
Mot intuisjonen blir modellparallellismestrategier (tensor- og rørledningsparallellisme på grad 2-4) som tidligere ble antatt å redusere maskinvareutnyttelsen, faktisk å foretrekke i stor skala. De reduserer eksponert kommunikasjon sammenlignet med ren dataparallellisme.
På nyere maskinvare blir utnyttelsen dårligere, ikke bedre. Bruken av Model FLOPS falt fra 59,67 % på A100 til 40,77 % på H100; Raskere brikker eksponerer mer kommunikasjonsoverhead.
Hvorfor det er viktig: Å legge til flere GPU-er gir dårlig marginal ytelse per ekstra enhet strøm eller GPU-time. Team som skalerer til tusenvis av akseleratorer må nøye revurdere parallelliseringsstrategier i stedet for å anta at mer maskinvare betyr raskere opplæring.

12,72K
Kult papir fra Meta.
Og en annen utmerket anvendelse av multi-agent systemer.
(bokmerk det)
Å trene moderne AI-modeller krever enorme mengder data av høy kvalitet.
Men flaskehalsen er ikke bare kvantitet. Dataene er rett og slett ikke mangfoldige nok. Enkeltmodeller som genererer syntetiske data har en tendens til å produsere homogene utdata, gjentakende mønstre og mangler den nyanserte variasjonen som finnes i menneskeskapte datasett.
Denne nye forskningen fra Meta introduserer Matrix, et peer-to-peer-rammeverk hvor flere AI-agenter i samarbeid genererer syntetiske treningsdata gjennom desentraliserte interaksjoner.
Matrix oppnår 2–15× høyere datagenereringsgjennomstrømning under identiske maskinvareressurser, uten å gå på bekostning av utdatakvaliteten.
TL; DR: I stedet for at én modell produserer data, spiller spesialiserte agenter distinkte roller og samhandler med hverandre. En stiller spørsmål, en annen svarer, en tredje vurderer kvalitet. Disse samtalene over flere omganger fanger opp kompleks resonnement og ulike perspektiver.
Det som gjør Matrix annerledes: ingen sentral koordinator. Agenter kommuniserer direkte i en fullstendig desentralisert arkitektur. Dette muliggjør skalerbarhet uten flaskehalser i infrastrukturen.
Rammeverket fungerer gjennom rollebaserte samtaleprotokoller, interaksjonsmønstre med flere turer og innebygd kvalitetsfiltrering på hvert trinn. Kun data som oppfyller kvalitetsgrenser kommer med i det endelige treningssettet.
Samarbeid mellom flere agenter produserer mer varierte syntetiske data enn enkeltmodell-tilnærminger. De resulterende datasettene forbedrer ytelsen til nedstrøms modellen på tvers av resonnement og instruksjonsfølgende referansepunkter.

35,96K
Topp
Rangering
Favoritter

