Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich habe die Nachbearbeitung in letzter Zeit nicht genau verfolgt, aber es sieht so aus, als würde DeepSeek voll und ganz gegen die Normen der Community verstoßen:
- verwendet immer noch GRPO, aber anstelle von nur verifizierbaren Belohnungen werden richtige Belohnungsmodelle verwendet
- schneidet nicht nur höher ab und behält den KL-Divergenz-Term bei, sondern fixiert ihn aus ersten Prinzipien mit dem K3-Schätzer von 2020 von Schulman et al.
- wechselt nicht zu fp32 bei der Inferenz oder fügt batch-invariante Kerne wie Thinky hinzu und macht sich nicht verrückt über off-policy Eigenheiten – stattdessen wird eine binäre Maske unter Verwendung von KL-div als Schwellenwert für verdächtige negative Proben hinzugefügt, sodass das Modell aus seinen eigenen Fehlern mit einem stärkeren Signal lernt
- bewahrt die gleiche Experten-Routing, top-k und top-p während der Inferenz wie im Training
Top
Ranking
Favoriten

