hay tantas formas de crear un "asistente de IA", y sin embargo todas las que existen tienen casi la misma personalidad ¿Cómo es que el post-entrenamiento convierte todos los LLMs en dumpers de información con emojipills de markdownslop? ningún humano habla así. ¿es esto de alguna manera el 'régimen de alta recompensa' de la RLHF?