Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Biểu đồ này đã lỗi thời và không ai nói về nó nữa. Bảng xếp hạng cho thấy "Anthropic Opus 4.5" ở mức 76.1%. Opus 4.6 được ra mắt vào ngày 5 tháng 2, một ngày sau khi Perplexity công bố những kết quả này. Ghi chú phát hành của Anthropic cho biết Opus 4.6 "cải thiện cả BrowseComp và DeepSearchQA." Trên BrowseComp, sự cải thiện đó là 16 điểm phần trăm (67.8% đến 84.0%). Chúng tôi chưa có số liệu DeepSearchQA, nhưng nếu sự tăng trưởng thậm chí chỉ bằng một nửa kích thước đó, Opus 4.6 độc lập sẽ đứng trên mức 79.5% của Perplexity. Đây là nơi trở nên thú vị. Nghiên cứu Sâu Nâng cao của Perplexity chạy mọi truy vấn trên Opus 4.5. Điều đó đã được xác nhận trong thông báo của họ. Opus 4.6 đã có sẵn trên API của Perplexity cho Comet, nhưng Nghiên cứu Sâu vẫn chưa chuyển đổi. Vì vậy, kết quả "hiện đại nhất" mà Kobeissi gọi là tin tức nóng hổi đã được chuẩn hóa dựa trên một mô hình đã bị thay thế 24 giờ sau đó. Cách diễn đạt "Perplexity đánh bại Anthropic" cũng chôn vùi thực tế rằng động cơ của Perplexity chính là Anthropic. Mọi truy vấn Nghiên cứu Sâu Nâng cao đều chạy Opus 4.5 thông qua công cụ tìm kiếm agentic của Perplexity. Anthropic là nền tảng. Perplexity là giàn giáo. Khoảng cách 3.4 điểm giữa chúng (79.5% so với 76.1%) là giá trị của quy trình truy xuất của Perplexity trên nền tảng lý luận của Anthropic. Ba điều sắp xảy ra. Anthropic gửi Opus 4.6 lên bảng xếp hạng. Perplexity nâng cấp Nghiên cứu Sâu từ 4.5 lên 4.6. Và toàn bộ biểu đồ này sẽ được xáo trộn trong vòng vài tuần. Chia sẻ một bức ảnh chụp của một cuộc đua chuẩn hóa giữa chừng và gọi nó là "tin nóng" là cách bạn có được 186K lượt xem và không có cái nhìn sâu sắc nào.

Hàng đầu

Thứ hạng

Yêu thích