når folk ikke vil bruke chat-fullføringer for RL-utrullinger, er jeg så forvirret bc, hvordan planla du å utlede modellen for noe nyttig etter å ha trent den? Eller planla du ikke å gjøre det?
@ellev3n11 fullføringer + apply_chat_template er i utgangspunktet det samme som hva inferensmotorer gjør under panseret uansett :) Jeg synes det er ganske praktisk å kunne bygge/evaluere envs med vilkårlige API-modeller, men chat-fullføringer effektiviserer det mye
15,7K