Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 může být poprvé, kdy přesně tento artefakt dostal tři různé technické zprávy – původní, článek *Nature* a kompletní revizi. Spousta technik vysvětlených zde, níže, prompty... Ale největší vítěz? @TheZvi! Ve skutečnosti si uvědomují, že bezpečnost existuje.


7. 1. 15:39
Článek DeepSeek-R1 byl aktualizován před 2 dny, rozšířil se z 22 na 86 stran a přidal značné množství detailů.
Nový obsah pokrývá témata jako je samovývoj DeepSeek-R1-Zero, hodnocení DeepSeek-R1, další analýza a destilace DeepSeek-R1.
DeepSeek-R1: Motivace schopnosti uvažování v LLM prostřednictvím posilovaného učení
Článek:


Dne 31. ledna @EpochAIResearch vypracoval odhad nákladů RL, které se prohloubily do R1. Od doby článku v Nature jsme věděli, že to je třikrát větší rozpočet. Jak přesně se mýlíte?
- Předpokládaná šarže = 1024 & velikost skupiny = 64, jako v DeepSeekMath. Opravdu: B=512, G=16.
- pouze 1700 kroků pro R1.


@EpochAIResearch samozřejmě @EgeErdil2 je dobře kalibrovaný a epistemicky pečlivý, takže přesně věděl, co se pravděpodobně stane

@EpochAIResearch @EgeErdil2 myslím, že Ege udělal špatně to, že podcenil, že bylo velmi jasné, že to nebylo úspěšné na malých modelech (nyní sdílejí více detailů; r1-lite-preview byl pravděpodobně Qwen2.5-32B). Ergo V3 byl mnohem efektivnější při výběru vzorků.
Meta úroveň předchozího je zajímavější. Byli pozadu?


813
Top
Hodnocení
Oblíbené
