新的Anthropic研究:生產強化學習中的自然出現的獎勵駭客不對齊。 “獎勵駭客”是指模型學會在訓練期間對其給予的任務作弊。 我們的新研究發現,如果不加以緩解,獎勵駭客的後果可能非常嚴重。