Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 saattaa olla ensimmäinen kerta, kun juuri tuotettu artefakti sai kolme eri teknistä raporttia – alkuperäisen, *Nature*-artikkelin ja täydellisen uudistuksen. Tässä selitetään paljon tekniikoita, infra, kehotteet... Mutta suurin voittaja? @TheZvi! He *ovat* itse asiassa tietoisia siitä, että turvallisuus on asia.


7.1. klo 15.39
DeepSeek-R1:n artikkeli päivitettiin kaksi päivää sitten, laajentaen 22 sivusta 86 sivuun ja lisäten huomattavasti yksityiskohtia.
Uusi sisältö kattaa aiheita kuten DeepSeek-R1-Zeron itsekehitys, DeepSeek-R1:n arviointi, lisäanalyysit ja DeepSeek-R1:n tislaus.
DeepSeek-R1: Päättelykyvyn kannustaminen LLM:issä vahvistusoppimisen avulla
Artikkeli:


31. tammikuuta @EpochAIResearch teki arvion RL:n kustannuksista, jotka menivät R1:een. Nature-lehden jälkeen tiesimme, että se oli kolme kertaa kokonaisbudjettiin. Väärin miten tarkalleen?
- Oletettu erä = 1024 ja ryhmän koko = 64, kuten DeepSeekMathissa. Oikeasti: B=512, G=16.
- vain 1700 askelta R1:lle.


@EpochAIResearch tietenkin @EgeErdil2 on hyvin kalibroitu ja epistemologisesti tarkka, joten hän tiesi tarkalleen, mitä todennäköisesti tapahtuu

@EpochAIResearch @EgeErdil2 mielestäni Ege teki väärin, oli aliarvioida, että he olivat hyvin selkeitä siitä, ettei se onnistunut pienissä malleissa (he jakavat nyt enemmän yksityiskohtia; r1-lite-preview oli luultavasti Qwen2.5-32B). Ergo V3 oli paljon tehokkaampi näytteiden suhteen.
Meta-taso on kiinnostavampi. olivatko he jäljessä?


818
Johtavat
Rankkaus
Suosikit
