Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Não acompanhei de perto o pós-treinamento ultimamente, mas parece que a DeepSeek está indo totalmente contra as normas da comunidade:
- ainda usa GRPO, mas em vez de apenas recompensas verificáveis, usa modelos de recompensa adequados
- não apenas corta mais alto + ainda mantém o termo de divergência KL, mas o corrige a partir dos primeiros princípios usando o estimador K3 de 2020 de Schulman et al.
- não muda para fp32 na inferência nem adiciona kernels invariantes em lote como o Thinky, e não se obceca com peculiaridades fora da política – em vez disso, adiciona uma máscara binária usando KL-div como limiar para amostras negativas suspeitas, para que o modelo aprenda com seus próprios erros com um sinal mais forte
- preserva o mesmo roteamento especialista, top-k e top-p durante a inferência que no treinamento
Melhores
Classificação
Favoritos

