Pieni pieni löytö tässä Googlen uudessa artikkelissa. Päättelymallit päihittävät ohjeisiin viritetyt mallit monimutkaisissa tehtävissä. Yleinen selitys on, että pidennetty testiaikalaskenta tapahtuu pidemmän ajatusketjun kautta. Mutta tämä uusi tutkimus paljastaa jotain syvempää. Se ehdottaa, että parantunut päättely syntyy mallin sisällä tapahtuvasta multiagenttimaisten vuorovaikutusten implisiittisestä simulaatiosta. Tutkijat kutsuvat sitä "ajattelun yhteiskunnaksi". DeepSeek-R1:n ja QwQ-32B:n päättelyjäljistä tehdyn kvantitatiivisen analyysin perusteella he havaitsivat, että nämä mallit osoittavat huomattavasti suurempaa perspektiivien monimuotoisuutta kuin perusmallit. Ne aktivoivat laajempaa ristiriitaa heterogeenisten persoonallisuus- ja asiantuntemukseen liittyvien piirteiden välillä päättelyssä. Miltä tämä näyttää? Keskustelukäyttäytymiseen kuuluvat kysymys-vastausjaksot, näkökulman muutokset, näkökulmien väliset ristiriidat ja erimielisyyksien sovittaminen. Malli väittelee itsensä kanssa, omaksuen selkeät sosio-emotionaaliset roolit, jotka leimaavat terävää vuoropuhelua. DeepSeek-R1 osoittaa merkittävästi enemmän kysymysvastauksia, näkökulman muutoksia ja sovittelua verrattuna DeepSeek-V3:een. Sama kaava pätee QwQ-32B:hen verrattuna Qwen-2.5-32B-IT:hen. Ohjeisiin viritetyt mallit tuottavat yksipuolisia monologeja. Päättelymallit tuottavat simuloitua dialogia. Onnistuneet päättelymallit välttävät "kaikukammion", joka johtaa vääriin vastauksiin. Simuloimalla erimielisyyksiä eri näkökulmista he estävät mielistelevän mukautumisen harhaanjohtaviin alkuperäisväitteisiin. Kontrolloidut RL-kokeet osoittavat, että perusmallit kehittävät spontaanisti keskustelukäyttäytymistä, kun ne palkitaan pelkästään päättelyn tarkkuudesta. Mallit, jotka on hienosäädetty keskustelun tukirakenteilla, oppivat nopeammin kuin monologimaisella päättelyllä, erityisesti varhaisessa koulutusvaiheessa. ...