Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI. Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My czytamy, abyś nie musiał.
DeepSeekMath-V2: W kierunku samoweryfikowalnego rozumowania matematycznego Niniejszy artykuł wprowadza DSMath-V2, model wytrenowany na deepseek-3.2-exp do dowodzenia w języku naturalnym w matematyce. Luka między generowaniem a weryfikacją jest główną przeszkodą w nieformalnym dowodzeniu.
Najpierw szkolą weryfikatora dla modelu, korzystając z ekspertów do oceny zarówno poprawności odpowiedzi, jak i analizy. Ten weryfikator jest używany do szkolenia końcowego modelu dowodowego, który zarówno pisze dowody, jak i analizuje ich poprawność. Osiągają złoto w IMO 2025.
Sztuczna Hivemind: Otwartość i jednorodność modeli językowych (i nie tylko) Artykuł wprowadza INFINITY-CHAT, zbiór danych zawierający 26 tys. rzeczywistych zapytań, które akceptują wiele odpowiedzi. Dzięki temu badają wewnętrzny i zewnętrzny zapaść trybu w ponad 70 modelach językowych.
Odkrywają efekt Sztucznego Hivemind z wewnętrzną powtarzalnością modelu, gdzie model wielokrotnie generuje podobne wyniki, oraz z między-modelową jednorodnością, gdzie różne modele zbliżają się do podobnych pomysłów z drobnymi zmianami w sformułowaniach. To rodzi pytania o różnorodność modeli.
Ukryta współpraca w systemach wieloagentowych Praca wprowadza Latent MAS, kompleksowy framework współpracy, który działa w ciągłej przestrzeni ukrytej. Projekt integruje zarówno generowanie ukrytych myśli, jak i transfer pamięci ukrytej między agentami.
LatentMAS opiera się na wyrażalności rozumowania, wierności komunikacji i złożoności współpracy. W obu ustawieniach MAS, zarówno sekwencyjnych, jak i hierarchicznych, Qwen 3(4B, 8B i 14B) przewyższa oparte na tekście podstawy MAS, poprawiając dokładność i redukując zużycie tokenów wyjściowych.
ToolOrchestra: Podnoszenie inteligencji poprzez efektywną orkiestrację modeli i narzędzi Autorzy proponują paradygmat orkiestracji, w którym inteligencja wyłania się z systemu kompozytowego. Model orkiestratora wywołuje odpowiednie narzędzia we właściwej kolejności dla danego zadania.
Korzystając z ToolOrchestra, model 8B jest trenowany z użyciem RL, aby decydować, kiedy i jak wywoływać inne LMs i narzędzia. Nagrody równoważą poprawność, efektywność i zgodność z preferencjami użytkowników. Na HLE, Orchestrator przewyższa wcześniejsze metody przy znacznie niższych kosztach obliczeniowych.
Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z kryptowalutami i badaniami AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
3,35K