ホットテイク:「数値的」報酬からの強化学習は単なる利便性や怠慢であり、LLMにとって正しいパラダイムではありません。 トークンを入金、トークン出して、間違いなく