DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

DeepSeek R1 ar putea fi prima dată când artefactul exact a primit trei rapoarte tehnice diferite – original, articolul *Nature* și o revizuire completă. Multe tehnici explicate aici, infrastructură, prompturi... Dar cel mai mare câștigător? @TheZvi! Ei *sunt* de fapt conștienți că siguranța există.

Pe 31 ianuarie, @EpochAIResearch făcut o estimare pentru costurile RL care au intrat în R1. De la articolul din Nature știam că era de trei ori mai mare decât bugetul total. Greșit cum exact? - S-a presupus că Batch = 1024 & Dimensiunea grupului = 64, ca în DeepSeekMath. De fapt: B=512, G=16. - doar 1700 de pași pentru R1.

@EpochAIResearch, desigur, @EgeErdil2 este bine calibrat și atent epistemic, așa că știa exact ce este probabil să se întâmple

@EpochAIResearch @EgeErdil2 cred că ceea ce a greșit Ege a fost să subestimeze faptul că au fost foarte clari că nu a avut succes pe modelele mici (acum împărtășesc mai multe detalii; r1-lite-preview probabil a fost Qwen2.5-32B). Ergo V3 era mult mai eficient ca eșantion. Un nivel meta anterior este mai interesant. Erau în urmă?

815

Limită superioară

Clasament

Favorite