Es gibt so viele Möglichkeiten, einen "AI-Assistenten" zu erstellen, und doch haben alle, die existieren, fast die gleiche Persönlichkeit. Wie verwandelt das Nachtraining alle LLMs in emojipillierte Markdown-Infodumper? Kein Mensch spricht so. Ist das irgendwie das 'High-Reward-Regime' von RLHF?