Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Isto é realmente fixe.
Fiquei a pensar mais profundamente sobre RL personalizado: qual é realmente o objetivo de personalizar um modelo num mundo onde os modelos base podem tornar-se obsoletos tão rapidamente?
A realidade na IA é que novos modelos são lançados a cada poucas semanas, cada um melhor que o anterior. E o ritmo está apenas a acelerar, como vemos no Hugging Face Hub. Não estamos longe de modelos base melhores a serem lançados diariamente.
Há uma lacuna de pesquisa em RL aqui que quase ninguém está a trabalhar. A maioria das pesquisas sobre personalização de LLM assume um modelo base fixo, mas muito poucos perguntam o que acontece a essa personalização quando se troca o modelo base. Pense em passar do Llama 3 para o Llama 4. Todas as preferências ajustadas, sinais de recompensa e LoRAs estão de repente ligadas ao modelo de ontem.
Como utilizador ou equipa, não queres ter de ensinar cada novo modelo as tuas preferências. Mas também não queres ficar preso a um modelo mais antigo só porque ele te conhece.
Poderíamos chamar a isto "transferibilidade de modelo RL": como pode um traço de RL, um sinal de recompensa ou uma representação de preferência treinada no modelo N ser destilada, armazenada e reaplicada automaticamente ao modelo N+1 sem muita intervenção do utilizador? Resolvemos isso no SFT onde um conjunto de dados de treino pode ser armazenado e reutilizado para treinar um modelo futuro. Também abordámos uma versão disso nas fases de RLHF de alguma forma, mas continua a ser pouco claro de forma mais geral ao usar RL implementado no mundo real.
Existem alguns tópicos relacionados (RLTR para traços de raciocínio transferíveis, P-RLHF e PREMIUM para representações de utilizador agnósticas ao modelo, HCP para protocolos de preferência portáteis) mas o ciclo completo parece-me subestudado.
Algumas destas questões são sobre off-policy, mas outras são sobre capacidades versus personalização: quais das antigas personalizações/correções o novo modelo já lida de forma nativa, e quais são realmente específicas do utilizador/equipa para serem resolvidas por padrão? Que armazenarias numa habilidade por agora, mas que o RL permite estender além do nível de orientação escrita.
Certamente perdi algum trabalho, por isso, por favor, publiquem qualquer bom trabalho que tenham visto sobre este tópico nos comentários.
Top
Classificação
Favoritos
