Nhận định nóng: RL từ "phần thưởng số" chỉ là sự tiện lợi / sự lười biếng của chúng ta -- và đó không phải là mô hình đúng cho LLMs. Tokens vào, Tokens ra FTW