Veřejně xAI neřekla, že "jsme trénovali model odměn, který mapuje tweet draft -> očekávané lajky." Ale je jasné, že mají suroviny. X říká, že veřejné příspěvky a metadata jako zapojení/reposty lze sdílet s xAI pro trénink a dolaďování. také uvádí, že vaše interakce, vstupy, výsledky a dokonce i explicitní zpětná vazba o Grok lze použít ke zlepšení modelů. mezitím má Grok nativní přístup k datům X v reálném čase a xAI už uvedla, že používá rozsáhlé RL pro účely uvažování a použití nástrojů. Takže můj odhad je, že to vlastně není jeden roztomilý malý prediktor > tweetů, ale něco chaotického a pravděpodobně silnějšího, což nastává, když se předtrénujete na online diskuzi, učíte se z toho, co se šíří, sbíráte explicitní i implicitní zpětnou vazbu a pak necháte produktové metriky uzavřít kruh. Ani jeden model odměn. Spíš jako plnohodnotné operantní podmiňování.