publicznie xAI nie powiedziało "wytrenowaliśmy model nagród, który mapuje szkic tweeta -> oczekiwane polubienia." ale bardzo oczywiście mają surowe składniki. X mówi, że publiczne posty, plus metadane takie jak zaangażowanie/ponowne publikacje, mogą być udostępniane xAI do treningu/dostosowywania. mówi również, że twoje interakcje, dane wejściowe, wyniki, a nawet wyraźne opinie na temat Grok mogą być używane do poprawy modeli. tymczasem Grok ma natywny dostęp do danych X w czasie rzeczywistym, a xAI już powiedziało, że używa dużej skali RL do rozumowania/użycia narzędzi. więc moim zdaniem to nie jest po prostu jeden uroczy mały predyktor tweeta->polubienia, ale coś bardziej skomplikowanego i prawdopodobnie potężniejszego, co dzieje się, gdy wstępnie trenujesz na dyskursie online, uczysz się z tego, co się rozprzestrzenia, zbierasz wyraźne i niejawne opinie, a następnie pozwalasz metrykom produktu zamknąć pętlę. nie jeden model nagród. bardziej jak pełnostackowe warunkowanie operantów.