Dziwne małe odkrycie w tym nowym artykule Google. Modele rozumowania przewyższają modele dostosowane do instrukcji w złożonych zadaniach. Powszechnym wyjaśnieniem jest to, że wydłużona obliczeniowa analiza w czasie testu zachodzi poprzez dłuższe łańcuchy myślenia. Jednak te nowe badania ujawniają coś głębszego. Sugerują, że wzmocnione rozumowanie wyłania się z implicitnej symulacji interakcji przypominających wieloagentowe w samym modelu. Badacze nazywają to "społeczeństwem myśli." Poprzez ilościową analizę śladów rozumowania z DeepSeek-R1 i QwQ-32B, odkrywają, że te modele wykazują znacznie większą różnorodność perspektyw niż modele bazowe. Aktywują szerszy konflikt między heterogenicznymi cechami osobowości i ekspertyzy podczas rozumowania. Jak to wygląda? Zachowania konwersacyjne obejmują sekwencje pytań i odpowiedzi, zmiany perspektywy, konflikty między punktami widzenia oraz pojednanie nieporozumień. Model debatuje sam ze sobą, przyjmując różne role społeczno-emocjonalne, które charakteryzują ożywioną wymianę zdań. DeepSeek-R1 wykazuje znacznie więcej pytań i odpowiedzi, zmian perspektywy oraz pojednania w porównaniu do DeepSeek-V3. Ten sam wzór utrzymuje się dla QwQ-32B w porównaniu do Qwen-2.5-32B-IT. Modele dostosowane do instrukcji produkują jednostronne monologi. Modele rozumowania produkują symulowany dialog. Udane modele rozumowania unikają "komory echo", która prowadzi do błędnych odpowiedzi. Symulując niezgodę w różnych perspektywach, zapobiegają pochlebczej konformizacji do mylących początkowych twierdzeń. Kontrolowane eksperymenty RL pokazują, że modele bazowe spontanicznie rozwijają zachowania konwersacyjne, gdy są nagradzane wyłącznie za dokładność rozumowania. Modele dostosowane z użyciem konwersacyjnych ram uczą się szybciej niż te dostosowane z użyciem monologowego rozumowania, szczególnie w początkowych etapach szkolenia. ...