Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dziwne małe odkrycie w tym nowym artykule Google.
Modele rozumowania przewyższają modele dostosowane do instrukcji w złożonych zadaniach.
Powszechnym wyjaśnieniem jest to, że wydłużona obliczeniowa analiza w czasie testu zachodzi poprzez dłuższe łańcuchy myślenia.
Jednak te nowe badania ujawniają coś głębszego.
Sugerują, że wzmocnione rozumowanie wyłania się z implicitnej symulacji interakcji przypominających wieloagentowe w samym modelu.
Badacze nazywają to "społeczeństwem myśli."
Poprzez ilościową analizę śladów rozumowania z DeepSeek-R1 i QwQ-32B, odkrywają, że te modele wykazują znacznie większą różnorodność perspektyw niż modele bazowe.
Aktywują szerszy konflikt między heterogenicznymi cechami osobowości i ekspertyzy podczas rozumowania.
Jak to wygląda?
Zachowania konwersacyjne obejmują sekwencje pytań i odpowiedzi, zmiany perspektywy, konflikty między punktami widzenia oraz pojednanie nieporozumień.
Model debatuje sam ze sobą, przyjmując różne role społeczno-emocjonalne, które charakteryzują ożywioną wymianę zdań.
DeepSeek-R1 wykazuje znacznie więcej pytań i odpowiedzi, zmian perspektywy oraz pojednania w porównaniu do DeepSeek-V3. Ten sam wzór utrzymuje się dla QwQ-32B w porównaniu do Qwen-2.5-32B-IT. Modele dostosowane do instrukcji produkują jednostronne monologi. Modele rozumowania produkują symulowany dialog.
Udane modele rozumowania unikają "komory echo", która prowadzi do błędnych odpowiedzi. Symulując niezgodę w różnych perspektywach, zapobiegają pochlebczej konformizacji do mylących początkowych twierdzeń.
Kontrolowane eksperymenty RL pokazują, że modele bazowe spontanicznie rozwijają zachowania konwersacyjne, gdy są nagradzane wyłącznie za dokładność rozumowania.
Modele dostosowane z użyciem konwersacyjnych ram uczą się szybciej niż te dostosowane z użyciem monologowego rozumowania, szczególnie w początkowych etapach szkolenia.
...

Najlepsze
Ranking
Ulubione
