Ich habe die Nachbearbeitung in letzter Zeit nicht genau verfolgt, aber es sieht so aus, als würde DeepSeek voll und ganz gegen die Normen der Community verstoßen: - verwendet immer noch GRPO, aber anstelle von nur verifizierbaren Belohnungen werden richtige Belohnungsmodelle verwendet - schneidet nicht nur höher ab und behält den KL-Divergenz-Term bei, sondern fixiert ihn aus ersten Prinzipien mit dem K3-Schätzer von 2020 von Schulman et al. - wechselt nicht zu fp32 bei der Inferenz oder fügt batch-invariante Kerne wie Thinky hinzu und macht sich nicht verrückt über off-policy Eigenheiten – stattdessen wird eine binäre Maske unter Verwendung von KL-div als Schwellenwert für verdächtige negative Proben hinzugefügt, sodass das Modell aus seinen eigenen Fehlern mit einem stärkeren Signal lernt - bewahrt die gleiche Experten-Routing, top-k und top-p während der Inferenz wie im Training