Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przestań być obsesyjny na punkcie 8B lub 70B "właściwości emergentnych". Większość tego, co widzisz, to po prostu szum pomiarowy i oszustwa w benchmarkach.
Zawsze mówiłem, że Zeyuan Allen-Zhu robi najbardziej rygorystyczną "fizykę" LLM-ów. Jak zauważyłem w moich blogach, większość akademickich debat na temat architektury to po prostu kult cargo, ponieważ nie radzą sobie z kontrolą zmiennych.
Nowy tutorial Zeyuana dowodzi, że model 100M może ujawnić więcej prawd architektonicznych niż model 1T-token 8B. Jeśli tego nie śledzisz, po prostu bawisz się drogimi LEGO w ciemności.
Przemysł w końcu się budzi: Skalowanie bez zrozumienia "fizyki" to po prostu hazard bogatego człowieka.
Najlepsze
Ranking
Ulubione
