DeepSeek R1 ar putea fi prima dată când artefactul exact a primit trei rapoarte tehnice diferite – original, articolul *Nature* și o revizuire completă. Multe tehnici explicate aici, infrastructură, prompturi... Dar cel mai mare câștigător? @TheZvi! Ei *sunt* de fapt conștienți că siguranța există.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 ian., 15:39
Lucrarea DeepSeek-R1 a fost actualizată acum 2 zile, extinzându-se de la 22 de pagini la 86 de pagini și adăugând o cantitate substanțială de detalii. Noul conținut acoperă subiecte precum autoevoluția DeepSeek-R1-Zero, evaluarea DeepSeek-R1, analize suplimentare și distilarea DeepSeek-R1. DeepSeek-R1: Stimularea capacității de raționament în LLM-uri prin învățare prin întărire Hârtie:
Pe 31 ianuarie, @EpochAIResearch făcut o estimare pentru costurile RL care au intrat în R1. De la articolul din Nature știam că era de trei ori mai mare decât bugetul total. Greșit cum exact? - S-a presupus că Batch = 1024 & Dimensiunea grupului = 64, ca în DeepSeekMath. De fapt: B=512, G=16. - doar 1700 de pași pentru R1.
@EpochAIResearch, desigur, @EgeErdil2 este bine calibrat și atent epistemic, așa că știa exact ce este probabil să se întâmple
@EpochAIResearch @EgeErdil2 cred că ceea ce a greșit Ege a fost să subestimeze faptul că au fost foarte clari că nu a avut succes pe modelele mici (acum împărtășesc mai multe detalii; r1-lite-preview probabil a fost Qwen2.5-32B). Ergo V3 era mult mai eficient ca eșantion. Un nivel meta anterior este mai interesant. Erau în urmă?
815