Zgłoszenie z abstraktu: "106B-parametrowy MoE (12B aktywnych) wytrenowany z użyciem dużej skali uczenia przez wzmocnienie na naszej infrastrukturze RL end-to-end." Spodziewałem się całkowitego RL od podstaw. Rzeczywistość: Już istniejący model bazowy + SFT + RL 😿