Ten wykres jest już nieaktualny i nikt o nim nie mówi. Tabela liderów pokazuje „Anthropic Opus 4.5” na poziomie 76,1%. Opus 4.6 zadebiutował 5 lutego, dzień po tym, jak Perplexity opublikowało te wyniki. W notatkach wydania Anthropic napisano, że Opus 4.6 „poprawia zarówno BrowseComp, jak i DeepSearchQA.” W przypadku BrowseComp ta poprawa wyniosła 16 punktów procentowych (67,8% do 84,0%). Nie mamy jeszcze liczby dla DeepSearchQA, ale jeśli skok będzie choćby w połowie tak duży, Opus 4.6 w wersji samodzielnej znajdzie się powyżej 79,5% Perplexity. Tutaj zaczyna się robić interesująco. Zaawansowane Badania Głębokie Perplexity wykonują każde zapytanie na Opus 4.5. To zostało potwierdzone w ich własnym ogłoszeniu. Opus 4.6 jest już dostępny w API Perplexity dla Comet, ale Badania Głębokie jeszcze się nie przesiadły. Tak więc „najnowocześniejszy” wynik, który Kobeissi nazywa wiadomościami, był porównywany z modelem, który został zastąpiony 24 godziny później. Ujęcie „Perplexity pokonuje Anthropic” również ukrywa fakt, że silnik Perplexity JEST Anthropic. Każde zapytanie w Zaawansowanych Badaniach Głębokich uruchamia Opus 4.5 przez agentowy system wyszukiwania Perplexity. Anthropic jest fundamentem. Perplexity jest rusztowaniem. Różnica 3,4 punktu między nimi (79,5% vs 76,1%) to wartość systemu pozyskiwania Perplexity na bazie rozumowania Anthropic. Trzy rzeczy mają się wydarzyć. Anthropic zgłasza Opus 4.6 do tabeli liderów. Perplexity aktualizuje Badania Głębokie z 4.5 do 4.6. A cały ten wykres zostanie przetasowany w ciągu kilku tygodni. Dzielenie się migawką wyścigu benchmarkowego w trakcie jego trwania i nazywanie tego „przełomem” to sposób na zdobycie 186K wyświetleń i zerowej wiedzy.