Interessant, wie niemand versteht, dass die RL-Pipeline der schwierigste Teil beim Bau eines SOTA-Modells heutzutage ist (zumindest bei einer Größe von weniger als 1T Parametern)