Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Święty Boże… ten artykuł z MIT cicho wyjaśnia, jak modele mogą uczyć się myślenia, gdy są całkowicie zablokowane 🤯
Główna idea jest zwodniczo prosta:
Myślenie zawodzi, ponieważ uczenie się nie ma się do czego przyczepić.
Gdy wskaźnik sukcesu modelu spada blisko zera, uczenie przez wzmocnienie przestaje działać. Brak sygnału nagrody. Brak gradientu. Brak poprawy. Model nie jest „zły w myśleniu” — jest uwięziony poza granicą uczenia się.
Ten artykuł przekształca problem.
Zamiast pytać „Jak sprawić, by model rozwiązywał trudniejsze problemy?”
Pytają: „Jak model tworzy problemy, z których może się uczyć?”
I tu wkracza SOAR.
SOAR dzieli pojedynczy wstępnie wytrenowany model na dwie role:
• Ucznia, który próbuje ekstremalnie trudnych problemów docelowych
• Nauczyciela, który generuje nowe problemy treningowe dla ucznia
Ale ograniczenie jest brutalne.
Nauczyciel nigdy nie jest nagradzany za sprytne pytania, różnorodność czy realizm.
Jest nagradzany tylko wtedy, gdy wydajność ucznia poprawia się na stałym zestawie rzeczywistych problemów oceniających.
Brak poprawy? Brak nagrody.
To całkowicie zmienia dynamikę.
...

Najlepsze
Ranking
Ulubione
