có rất nhiều cách để tạo ra một "trợ lý AI", và tất cả những cái hiện có đều có tính cách gần như giống nhau làm thế nào mà việc huấn luyện sau lại biến tất cả các LLM thành những kẻ đổ thông tin markdown đầy emoji? không ai nói như thế này. điều này có phải là 'chế độ thưởng cao' của RLHF không?