Jeg ser etter noen med erfaring med å implementere (eller bare et eksempel av høy kvalitet) eller kode for utfallsbelønningsmodeller og PRM-er for å bidra til å forbedre belønningsmodellkapittelet i RLHF-boken. DM eller send meg en e-post hvis det er deg eller du har pekeren.