DeepSeek R1 saattaa olla ensimmäinen kerta, kun juuri tuotettu artefakti sai kolme eri teknistä raporttia – alkuperäisen, *Nature*-artikkelin ja täydellisen uudistuksen. Tässä selitetään paljon tekniikoita, infra, kehotteet... Mutta suurin voittaja? @TheZvi! He *ovat* itse asiassa tietoisia siitä, että turvallisuus on asia.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7.1. klo 15.39
DeepSeek-R1:n artikkeli päivitettiin kaksi päivää sitten, laajentaen 22 sivusta 86 sivuun ja lisäten huomattavasti yksityiskohtia. Uusi sisältö kattaa aiheita kuten DeepSeek-R1-Zeron itsekehitys, DeepSeek-R1:n arviointi, lisäanalyysit ja DeepSeek-R1:n tislaus. DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla Artikkeli:
31. tammikuuta @EpochAIResearch teki arvion RL:n kustannuksista, jotka menivät R1:een. Nature-lehden jälkeen tiesimme, että se oli kolme kertaa kokonaisbudjettiin. Väärin miten tarkalleen? - Oletettu erä = 1024 ja ryhmän koko = 64, kuten DeepSeekMathissa. Oikeasti: B=512, G=16. - vain 1700 askelta R1:lle.
@EpochAIResearch tietenkin @EgeErdil2 on hyvin kalibroitu ja epistemologisesti tarkka, joten hän tiesi tarkalleen, mitä todennäköisesti tapahtuu
@EpochAIResearch @EgeErdil2 mielestäni Ege teki väärin, oli aliarvioida, että he olivat hyvin selkeitä siitä, ettei se onnistunut pienissä malleissa (he jakavat nyt enemmän yksityiskohtia; r1-lite-preview oli luultavasti Qwen2.5-32B). Ergo V3 oli paljon tehokkaampi näytteiden suhteen. Meta-taso on kiinnostavampi. olivatko he jäljessä?
818