Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ten artykuł zespołu LongCat porusza pytanie, które staje się nieuniknione w nowoczesnych badaniach nad AI: dlaczego modele rozumowania, które wyglądają świetnie w benchmarkach, wciąż mają trudności, gdy zostaną przeniesione do rzeczywistych, chaotycznych środowisk?
Autorzy wprowadzają LongCat-Flash-Thinking-2601, model Mixture-of-Experts o 560 miliardach parametrów, zaprojektowany nie tylko do myślenia, ale także do działania. Główne twierdzenie brzmi, że agentowe rozumowanie nie wynika tylko z lepszego łańcucha myślenia. Wynika z ciągłej interakcji z środowiskami, narzędziami, hałasem i porażkami.
Ruch techniczny jest subtelny, ale ważny. Zamiast traktować rozumowanie jako statyczny problem tekstowy, artykuł przedstawia je jako proces zamkniętej pętli: obserwuj → planuj → działaj → otrzymuj informacje zwrotne → poprawiaj.
Ta zmiana wymusza zmiany wszędzie: konstrukcja danych, algorytmy treningowe, infrastruktura, a nawet zachowanie w czasie wnioskowania.
Głównym wkładem jest skalowanie środowiska. Zamiast polegać na kilku ręcznie wykonanych benchmarkach agentów, autorzy budują zautomatyzowany proces, który generuje ponad 10 000 wykonalnych środowisk w ponad 20 dziedzinach. Każde środowisko opiera się na rzeczywistych zależnościach narzędzi, zweryfikowanych bazach danych i wielu ważnych ścieżkach rozwiązania. Trudność skaluje się strukturalnie, a nie heurystycznie.
Trening w tych środowiskach normalnie załamałby się pod wpływem hałasu. Dlatego artykuł wyraźnie modeluje niedoskonałości świata rzeczywistego: niejednoznaczne instrukcje, awarie narzędzi, częściowe wyniki.
Hałas nie jest traktowany jako przypadek marginalny. Jest wbudowany w program nauczania, stopniowo zwiększając złożoność, aby odporność była nauczana, a nie łatana później.
Na tym wszystkim rozszerzają asynchroniczne uczenie przez wzmocnienie (DORA), aby radzić sobie z interakcjami o długim ogonie i wielu turach na dużą skalę, utrzymując stabilność treningu nawet przy dziesiątkach tysięcy równoległych środowisk.
W czasie wnioskowania model wprowadza tryb Heavy Thinking. Zamiast jednego długiego łańcucha myślenia, uruchamia równoległe ścieżki rozumowania, a następnie agreguje je przez wtórny etap refleksyjny. To skaluje zarówno głębokość, jak i szerokość rozumowania, a także konsekwentnie przewyższa samokonsystencję w złożonych zadaniach.
Wyniki są uderzające. LongCat-Flash-Thinking-2601 osiąga najlepsze wyniki wśród modeli open-source w benchmarkach agentowych, takich jak BrowseComp, τ²-Bench i VitaBench, pozostając jednocześnie konkurencyjnym w porównaniu do modeli zamkniętych w matematyce, kodowaniu i wyszukiwaniu.
Co ważniejsze, wydajność znacznie mniej się pogarsza w warunkach hałasu.
Szersze implikacje są niewygodne, ale jasne: jakość rozumowania nie jest już wąskim gardłem. Generalizacja jest. A generalizacja pochodzi z środowisk, a nie z podpowiedzi.
Ten artykuł argumentuje, że jeśli chcemy agentów, którzy działają poza demonstracjami, musimy przestać szkolić ich w czystych, wyimaginowanych światach. Prawdziwa inteligencja kształtuje się tam, gdzie rzeczy się psują.
Artykuł: LongCat-Flash-Thinking-2601 Raport techniczny

Najlepsze
Ranking
Ulubione
