Ich finde es lustig, wie die Forschung von DeepSeek größtenteils ignoriert wird. Sie haben die Branche, mit Geschrei und Zähnenknirschen, in die Welt der effizienten MoEs und effizienten RL gezogen, aber das war's. Warum sind nicht alle vollaufmerksamen Instructs DSA schon da? Werden die Math-V2-Methoden übernommen? Nein. «Gib mir Wal-Gewichte»
Ahmad
Ahmad10. Jan., 11:53
Bitte lass das v4 bald fallen, Wal.
(Natürlich möchte ich auch V4)
199