Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wilde kleine Entdeckung in diesem neuen Papier von Google.
Modellierungsansätze für das Denken übertreffen anpassungsoptimierte Modelle bei komplexen Aufgaben.
Die gängige Erklärung ist, dass erweiterte Berechnungen zur Testzeit durch längere Gedankengänge erfolgen.
Aber diese neue Forschung offenbart etwas Tieferes.
Sie legt nahe, dass verbessertes Denken aus der impliziten Simulation von Interaktionen ähnlich wie bei mehreren Agenten innerhalb des Modells selbst entsteht.
Die Forscher nennen es eine "Gesellschaft des Denkens."
Durch quantitative Analysen von Denkspuren aus DeepSeek-R1 und QwQ-32B stellen sie fest, dass diese Modelle eine viel größere Perspektivvielfalt aufweisen als Basismodelle.
Sie aktivieren breitere Konflikte zwischen heterogenen Persönlichkeits- und expertisebezogenen Merkmalen während des Denkens.
Wie sieht das aus?
Konversationelles Verhalten umfasst Frage-Antwort-Sequenzen, Perspektivwechsel, Konflikte zwischen Standpunkten und die Versöhnung von Meinungsverschiedenheiten.
Das Modell debattiert mit sich selbst und übernimmt unterschiedliche sozial-emotionale Rollen, die ein scharfes Hin und Her in der Konversation charakterisieren.
DeepSeek-R1 zeigt signifikant mehr Frage-Antwort-Verhalten, Perspektivwechsel und Versöhnung im Vergleich zu DeepSeek-V3. Das gleiche Muster gilt für QwQ-32B im Vergleich zu Qwen-2.5-32B-IT. Anpassungsoptimierte Modelle produzieren einseitige Monologe. Denkmodelle erzeugen simulierte Dialoge.
Erfolgreiche Denkmodelle vermeiden die "Echokammer", die zu falschen Antworten führt. Durch die Simulation von Meinungsverschiedenheiten aus verschiedenen Perspektiven verhindern sie schüchterne Konformität gegenüber irreführenden anfänglichen Behauptungen.
Kontrollierte RL-Experimente zeigen, dass Basismodelle spontan konversationelles Verhalten entwickeln, wenn sie ausschließlich für die Genauigkeit des Denkens belohnt werden.
Modelle, die mit konversationeller Unterstützung feinabgestimmt wurden, lernen schneller als solche, die mit monologähnlichem Denken feinabgestimmt wurden, insbesondere in den frühen Trainingsphasen.
...

Top
Ranking
Favoriten
