熱烈討論:來自「數值」獎勵的強化學習只是方便 / 我們的懶惰——這對於大型語言模型來說並不是正確的範式。 代幣進,代幣出,萬歲!