W przypadku pytania o nierówność z podstępem, tylko GPT 5.2 pro potrafił dostrzec subtelność. Bezpośrednie wywołanie API, gemini 3 pro zawiodło. Ale teraz, Grok 4.20 odnosi sukces. Jest tak szybki, że naprawdę się boję (30 sekund w porównaniu do 9 minut dla 5.2 pro).