Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budování s agenty AI @dair_ai • Předchozí: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Sdílím poznatky o tom, jak stavět s LLM a AI agenty ⬇️
Zajímavý výzkum od Meta o trendech škálování hardwaru.
Více GPU neznamená vždy rychlejší trénink.
Výchozí přístup k škálování tréninku LLM dnes zůstává tím, že se problém více zabývá. Více akcelerátorů, více paralelismu, více výpočtů.
Nicméně existuje strop, který většina týmů nevidí, dokud ho nedosáhnou.
Tento nový výzkum ukazuje, že škálování celkového počtu akcelerátorů pro trénování velkých modelů rychle přináší klesající výnosy, a to i při optimalizovaném hardwaru a strategiích paralelizace.
Výzkumníci testovali modely Llama-2 (parametry 1B až 70B) na 8 až 2 048 GPU pokrývajících hardware V100, A100 a H100. Co zjistili? Při škálování z 128 na 2 048 GPU klesla propustnost o 37,22 %, zatímco spotřeba energie na GPU klesla pouze o 5,87 %.
Příčinou je režijní režie komunikace. Ve velkých měřítkách se operace AllGather a ReduceScatter (dva MPI primitiva) stávají úzkými hrdly. Většina komunikace je vystavena a výpočty už latenci nedokážou skrýt.
Paradoksalně se strategie paralelismu modelů (tenzorový a pipeline paralelismus na stupních 2–4), které se dříve považovaly za snižující využití hardwaru, ve skutečnosti stávají ve větším měřítku vhodnějšími. Snižují vystavenou komunikaci ve srovnání s čistým datovým paralelismem.
Na novějším hardwaru se využití zhoršuje, ne zlepšuje. Využití FLOPS modelů kleslo z 59,67 % na A100 na 40,77 % na H100; Rychlejší čipy zveřejňují větší komunikační režii.
Proč je to důležité: Přidání více GPU přináší špatný okrajový výkon za každou další jednotku energie nebo GPU-hodinu. Týmy, které škálují na tisíce akcelerátorů, by měly pečlivě přehodnotit strategie paralelizace, místo aby předpokládaly, že více hardwaru znamená rychlejší školení.

6,95K
Skvělý článek od Meta.
A další vynikající využití multiagentních systémů.
(ulož si to)
Trénování moderních AI modelů vyžaduje obrovské množství vysoce kvalitních dat.
Úzké hrdlo však není jen v množství. Data prostě nejsou dostatečně rozmanitá. Jednotlivé modely generující syntetická data mají tendenci produkovat homogenní výstupy, opakující se vzory a postrádají nuancovanou rozmanitost, kterou lze najít v lidsky vytvořených datových sadách.
Tento nový výzkum od Meta představuje Matrix, peer-to-peer framework, kde více AI agentů společně generuje syntetická tréninková data prostřednictvím decentralizovaných interakcí.
Matrix dosahuje vyšší propustnosti generování dat o 2–15× při stejných hardwarových zdrojích, aniž by se snížila kvalita výstupu.
TL; DR: Místo toho, aby jeden model produkoval data, specializovaní agenti hrají odlišné role a vzájemně spolu interagují. Jeden klade otázky, druhý odpovídá, třetí hodnotí kvalitu. Tyto vícestupňové rozhovory zachycují složité uvažování a rozmanité pohledy.
Co dělá Matrix odlišným: žádný centrální koordinátor. Agenti komunikují přímo v plně decentralizované architektuře. To umožňuje škálovatelnost bez úzkých míst infrastruktury.
Rámec funguje na základě konverzačních protokolů založených na rolích, vícestupňových interakčních vzorů a vestavěného kvalitního filtrování v každé fázi. Do finální trénovací sady se dostanou pouze data splňující kvalitativní prahy.
Spolupráce více agentů produkuje rozmanitější syntetická data než přístupy založené na jednom modelu. Výsledné datové sady zlepšují výkon downstream modelů napříč benchmarky uvažování a sledování instrukcí.

35,96K
Top
Hodnocení
Oblíbené

