DeepSeek R1 může být poprvé, kdy přesně tento artefakt dostal tři různé technické zprávy – původní, článek *Nature* a kompletní revizi. Spousta technik vysvětlených zde, níže, prompty... Ale největší vítěz? @TheZvi! Ve skutečnosti si uvědomují, že bezpečnost existuje.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7. 1. 15:39
Článek DeepSeek-R1 byl aktualizován před 2 dny, rozšířil se z 22 na 86 stran a přidal značné množství detailů. Nový obsah pokrývá témata jako je samovývoj DeepSeek-R1-Zero, hodnocení DeepSeek-R1, další analýza a destilace DeepSeek-R1. DeepSeek-R1: Motivace schopnosti uvažování v LLM prostřednictvím posilovaného učení Článek:
Dne 31. ledna @EpochAIResearch vypracoval odhad nákladů RL, které se prohloubily do R1. Od doby článku v Nature jsme věděli, že to je třikrát větší rozpočet. Jak přesně se mýlíte? - Předpokládaná šarže = 1024 & velikost skupiny = 64, jako v DeepSeekMath. Opravdu: B=512, G=16. - pouze 1700 kroků pro R1.
@EpochAIResearch samozřejmě @EgeErdil2 je dobře kalibrovaný a epistemicky pečlivý, takže přesně věděl, co se pravděpodobně stane
@EpochAIResearch @EgeErdil2 myslím, že Ege udělal špatně to, že podcenil, že bylo velmi jasné, že to nebylo úspěšné na malých modelech (nyní sdílejí více detailů; r1-lite-preview byl pravděpodobně Qwen2.5-32B). Ergo V3 byl mnohem efektivnější při výběru vzorků. Meta úroveň předchozího je zajímavější. Byli pozadu?
813