Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budování s agenty AI @dair_ai • Předchozí: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Sdílím poznatky o tom, jak stavět s LLM a AI agenty ⬇️
Skvělý papír pro agenty, kteří staví práci.
Systémy s více agenty často nedostatečně dodávají výkon. Problém není v tom, jak jsou agenti sami postaveni. Je to o tom, jak jsou organizované.
Většinou jsou postaveny na pevných řetězcích, stromech a grafech, které se nemohou přizpůsobovat vývoji úkolů.
Ale co kdyby se systém naučil své vlastní koordinační vzorce?
Tento nový výzkum představuje Puppeteer, rámec, který se učí dynamicky řídit agenty místo spoléhání se na ručně vyráběné topologie.
Místo předdefinovaných struktur spolupráce orchestrátor vybírá, který agent bude mluvit jako další na základě vyvíjejícího se stavu konverzace. Politika je trénována pomocí REINFORCE, která přímo optimalizuje úspěch úkolu.
Místo vyhledávání složitých topologií grafů serializují vše do sekvenčních výběrů agentů. Toto přeformulování obchází kombinatorickou složitost.
Objevuje se překvapení: kompaktní cyklické vzorce se vyvíjejí přirozeně. Ne rozlehlé grafy, ale těsné smyčky, kde většinu práce zvládnou 2-3 agenti.
Pozoruhodné je, že systém sám objevuje efektivitu.
Výsledky:
- U GSM-Hard matematických úloh: přesnost 70 % (nárůst z 13,5 % pouze u základního modelu).
- Na MMLU-Pro: 83 % (vs 76 % na základní úrovni).
- U vývoje softwaru SRDD: 76,4 % (oproti 60,6 % na základním stavu).
Tyto zisky přicházejí s nižší spotřebou tokenů. Článek ukazuje, že náklady na tokeny během tréninku konzistentně klesají, zatímco výkon se zlepšuje.
Také dokazují, že proces výběru agenta splňuje Markovovy vlastnosti, což znamená, že samotný aktuální stav určuje optimálního dalšího agenta. Není třeba sledovat celou historii.
Proč je to důležité pro AI vývojáře: naučená jednoduchost překonává inženýrskou složitost. Vyškolený router s několika specializovanými agenty dokáže překonat složité ručně vyráběné pracovní postupy a zároveň snížit výpočetní zátěž.

21,06K
Velké vydání od DeepSeek.
A velká věc pro open-source LLM.
DeepSeek-V3.2-Speciale je na úrovni Gemini-3-Pro na Mezinárodní matematické olympiádě (IMO) 2025 a Mezinárodní olympiádě v informatice (IOI).
Dokonce překonává Gemini 3 Pro v několika benchmarkech.
DeepSeek identifikuje tři klíčová úzká místa:
> vanilkové mechanismy pozornosti, které se dusí na dlouhých sekvencích,
> nedostatečné výpočetní kapacity po školení,
> a slabé zobecnění v agentických scénářích.
Představují DeepSeek-V3.2, model, který řeší všechny tři problémy současně.
Jednou z klíčových inovací je DeepSeek Sparse Attention (DSA), která snižuje složitost pozornosti z O(L²) na O(Lk), kde k je mnohem menší než délka sekvence. Lehký "lightning indexer" hodnotí, které žetony mají význam, a pak jen ty top-k tokeny dostanou plnou pozornost.
Výsledkem jsou výrazné zrychlení při dlouhých kontextech, aniž by se snížil výkon.
Ale samotná architektura nestačí. DeepSeek přiděluje výpočetní kapacitu po tréninku přesahující 10 % nákladů na předškolení, což je obrovská investice do reálného života, která přímo znamená schopnost uvažování.
Pro agentické úkoly vytvořili automatický pipeline pro syntézu prostředí, který generoval 1 827 samostatných prostředí úkolů a 85 000+ složitých promptů. Kódoví agenti, vyhledávací agenti a obecné plánovací úkoly (vše syntetizované ve velkém měřítku pro trénování RL)
Čísla: Na AIME 2025 dosahuje DeepSeek-V3.2 93,1 % (GPT-5-High: 94,6 %). Na SWE-ověřeném případu bylo vyřešeno 73,1 %. U HLE pouze textového obsahu 25,1 % oproti GPT-5 26,3 %.
Jejich vysoce výpočetní varianta, DeepSeek-V3.2-Speciale, jde ještě dál a získala zlaté medaile na IMO 2025 (35/42 bodů), IOI 2025 (492/600) a ICPC World Finals 2025 (10/12 problémů vyřešeno).
Jedná se o první otevřený model, který věrohodně konkuruje proprietárním systémům Frontier v oblasti uvažování, kódování a agentických benchmarků.

22,37K
Zajímavý výzkum od Meta o trendech škálování hardwaru.
Více GPU neznamená vždy rychlejší trénink.
Výchozí přístup k škálování tréninku LLM dnes zůstává tím, že se problém více zabývá. Více akcelerátorů, více paralelismu, více výpočtů.
Nicméně existuje strop, který většina týmů nevidí, dokud ho nedosáhnou.
Tento nový výzkum ukazuje, že škálování celkového počtu akcelerátorů pro trénování velkých modelů rychle přináší klesající výnosy, a to i při optimalizovaném hardwaru a strategiích paralelizace.
Výzkumníci testovali modely Llama-2 (parametry 1B až 70B) na 8 až 2 048 GPU pokrývajících hardware V100, A100 a H100. Co zjistili? Při škálování z 128 na 2 048 GPU klesla propustnost o 37,22 %, zatímco spotřeba energie na GPU klesla pouze o 5,87 %.
Příčinou je režijní režie komunikace. Ve velkých měřítkách se operace AllGather a ReduceScatter (dva MPI primitiva) stávají úzkými hrdly. Většina komunikace je vystavena a výpočty už latenci nedokážou skrýt.
Paradoksalně se strategie paralelismu modelů (tenzorový a pipeline paralelismus na stupních 2–4), které se dříve považovaly za snižující využití hardwaru, ve skutečnosti stávají ve větším měřítku vhodnějšími. Snižují vystavenou komunikaci ve srovnání s čistým datovým paralelismem.
Na novějším hardwaru se využití zhoršuje, ne zlepšuje. Využití FLOPS modelů kleslo z 59,67 % na A100 na 40,77 % na H100; Rychlejší čipy zveřejňují větší komunikační režii.
Proč je to důležité: Přidání více GPU přináší špatný okrajový výkon za každou další jednotku energie nebo GPU-hodinu. Týmy, které škálují na tisíce akcelerátorů, by měly pečlivě přehodnotit strategie paralelizace, místo aby předpokládaly, že více hardwaru znamená rychlejší školení.

204,53K
Top
Hodnocení
Oblíbené

