Ten artykuł zespołu LongCat porusza pytanie, które staje się nieuniknione w nowoczesnych badaniach nad AI: dlaczego modele rozumowania, które wyglądają świetnie w benchmarkach, wciąż mają trudności, gdy zostaną przeniesione do rzeczywistych, chaotycznych środowisk? Autorzy wprowadzają LongCat-Flash-Thinking-2601, model Mixture-of-Experts o 560 miliardach parametrów, zaprojektowany nie tylko do myślenia, ale także do działania. Główne twierdzenie brzmi, że agentowe rozumowanie nie wynika tylko z lepszego łańcucha myślenia. Wynika z ciągłej interakcji z środowiskami, narzędziami, hałasem i porażkami. Ruch techniczny jest subtelny, ale ważny. Zamiast traktować rozumowanie jako statyczny problem tekstowy, artykuł przedstawia je jako proces zamkniętej pętli: obserwuj → planuj → działaj → otrzymuj informacje zwrotne → poprawiaj. Ta zmiana wymusza zmiany wszędzie: konstrukcja danych, algorytmy treningowe, infrastruktura, a nawet zachowanie w czasie wnioskowania. Głównym wkładem jest skalowanie środowiska. Zamiast polegać na kilku ręcznie wykonanych benchmarkach agentów, autorzy budują zautomatyzowany proces, który generuje ponad 10 000 wykonalnych środowisk w ponad 20 dziedzinach. Każde środowisko opiera się na rzeczywistych zależnościach narzędzi, zweryfikowanych bazach danych i wielu ważnych ścieżkach rozwiązania. Trudność skaluje się strukturalnie, a nie heurystycznie. Trening w tych środowiskach normalnie załamałby się pod wpływem hałasu. Dlatego artykuł wyraźnie modeluje niedoskonałości świata rzeczywistego: niejednoznaczne instrukcje, awarie narzędzi, częściowe wyniki. Hałas nie jest traktowany jako przypadek marginalny. Jest wbudowany w program nauczania, stopniowo zwiększając złożoność, aby odporność była nauczana, a nie łatana później. Na tym wszystkim rozszerzają asynchroniczne uczenie przez wzmocnienie (DORA), aby radzić sobie z interakcjami o długim ogonie i wielu turach na dużą skalę, utrzymując stabilność treningu nawet przy dziesiątkach tysięcy równoległych środowisk. W czasie wnioskowania model wprowadza tryb Heavy Thinking. Zamiast jednego długiego łańcucha myślenia, uruchamia równoległe ścieżki rozumowania, a następnie agreguje je przez wtórny etap refleksyjny. To skaluje zarówno głębokość, jak i szerokość rozumowania, a także konsekwentnie przewyższa samokonsystencję w złożonych zadaniach. Wyniki są uderzające. LongCat-Flash-Thinking-2601 osiąga najlepsze wyniki wśród modeli open-source w benchmarkach agentowych, takich jak BrowseComp, τ²-Bench i VitaBench, pozostając jednocześnie konkurencyjnym w porównaniu do modeli zamkniętych w matematyce, kodowaniu i wyszukiwaniu. Co ważniejsze, wydajność znacznie mniej się pogarsza w warunkach hałasu. Szersze implikacje są niewygodne, ale jasne: jakość rozumowania nie jest już wąskim gardłem. Generalizacja jest. A generalizacja pochodzi z środowisk, a nie z podpowiedzi. Ten artykuł argumentuje, że jeśli chcemy agentów, którzy działają poza demonstracjami, musimy przestać szkolić ich w czystych, wyimaginowanych światach. Prawdziwa inteligencja kształtuje się tam, gdzie rzeczy się psują. Artykuł: LongCat-Flash-Thinking-2601 Raport techniczny