Święty Boże… ten artykuł z MIT cicho wyjaśnia, jak modele mogą uczyć się myślenia, gdy są całkowicie zablokowane 🤯 Główna idea jest zwodniczo prosta: Myślenie zawodzi, ponieważ uczenie się nie ma się do czego przyczepić. Gdy wskaźnik sukcesu modelu spada blisko zera, uczenie przez wzmocnienie przestaje działać. Brak sygnału nagrody. Brak gradientu. Brak poprawy. Model nie jest „zły w myśleniu” — jest uwięziony poza granicą uczenia się. Ten artykuł przekształca problem. Zamiast pytać „Jak sprawić, by model rozwiązywał trudniejsze problemy?” Pytają: „Jak model tworzy problemy, z których może się uczyć?” I tu wkracza SOAR. SOAR dzieli pojedynczy wstępnie wytrenowany model na dwie role: • Ucznia, który próbuje ekstremalnie trudnych problemów docelowych • Nauczyciela, który generuje nowe problemy treningowe dla ucznia Ale ograniczenie jest brutalne. Nauczyciel nigdy nie jest nagradzany za sprytne pytania, różnorodność czy realizm. Jest nagradzany tylko wtedy, gdy wydajność ucznia poprawia się na stałym zestawie rzeczywistych problemów oceniających. Brak poprawy? Brak nagrody. To całkowicie zmienia dynamikę. ...