Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Takže si vybereš smrt

Na úrovni objektu @TheZvi
Technicky vzato by DSA mohl být velkým skokem, který by učinil Gemini měřítka kontextů triviálně levnými, i u předchozích modelů. Upozornění:
- nejsme si jisti, *jestli* se to škáluje na 1M+ (ale zkušenosti z V3.2≥V3.1 navzdory identickému předtrénování, a zkušenosti s V3.2>> takže pravděpodobně ano)
- Nejsme si jisti, jak ji lze trénovat, aniž by se vyhnula Husté pozornosti. Možná DeepSeek ví. Myslím, že V4 DSA nepoužívá, je to výslovně nazýváno prototypem. V nejhorším případě je také rozumné předtrénovat s plnou pozorností => prodloužit => řídit, protože při předtrénování uděláte více peněz pro trvale levnější inferenci.
- Kimiho KDA nebo Qwenin GDN+ nebo něco podobného může být dokonce lepší než DSA+/NSA+
Kromě těchto výhrad, nejde o dvojnásobné snížení ceny, jsem sarkastický. Spíš 10x. Malá pozornost, která se nezhoršuje, je docela velká věc.
Co se týče rychlosti, je to z pohledu modelu prázdný bod. DeepSeek nemá zájem poskytovat nejlepší produkt. Slouží s obrovskými dávkami H800/Ascend. Můžete ho dát na americký hardware a dosáhnout 60-150 t/s, nebo na Cerebras a získat 1000 t/s jako v GLM, aniž byste zvýšili náklady. Tato architektura je sama o sobě rychlá (povrchní, laciná pozornost), jenže DeepSeek ji obsluhuje pomalu.
Co se týče frontier intelligence, říkám, že tyto výhody "usemaxingu" frontieru – hlavně agentické kódování, ale stejným způsobem můžete pokrýt více domén – jsou výsledkem výpočetních výdajů na RL kroky a iterace přes syntetická prostředí. Mají recept. Uvádějí ≈10 % nákladů na předškolení vynaložených na Speciale. To je ≈$600K. Grok 4 údajně využil 100 % Grok 3, tedy desítky stovek milionů. Je jasné, že s Grokem to bylo velmi neefektivní, ale myslím, že DeepSeek by mohl snadno dosáhnout 100 %, recept je známý. Pravděpodobně nechtějí zbytečně plýtvat na zastaralém základu, protože poznamenávají, že zůstává znalostním úzkým hrdlem.
Přijde mi vtipný ten bezstarostný přístup k matematickému výkonu na úrovni podle mě (nebo k nulovému řešení Erdosových úloh do té míry, že lidský řešitel říká "ano, to je v podstatě moje řešení"). Neměli jsme všichni očekávat AGI od nezávislého matematického výzkumu? Nebo je to jen teď programování? Arugably je to nejzajímavější schopnost pro odhad rychlosti vzletu. Ale ať už to nevadí, sám věřím v pomalý vzlet, sebezdokonalování narazí na logistické problémy ať začneme kdekoliv.
Hlavním přínosem, jak jsem říkal, je, že oznamují přesvědčení, že v zásadě vyřešili trénink LLM z konce roku 2025 jako výzkumný program a mohli by se dostat na současnou západní úroveň nebo ještě dál jen tím, že do toho vloží více výpočetního výkonu (plus drobné úpravy efektivity tokenů). Teoreticky lze jejich oznámení o vstupu do většího výcviku nakonec interpretovat jako "a to právě teď děláme". Ale to se teprve uvidí.
@TheZvi > i přes stejný předvýcvik
a po výcviku korekce
2,86K
Top
Hodnocení
Oblíbené

