Tôi nghĩ đây là một cách tốt để hình dung cuộc đua AI bằng cách sử dụng tiêu chuẩn GPQA Diamond lâu dài. Bạn có thể thấy OpenAI đã chiếm lĩnh lĩnh vực này trong bao lâu, sự trỗi dậy (và sụp đổ) của Meta, sự bắt kịp đột ngột (và sau đó là sự trì trệ) của xAI, và sự xuất hiện của các LLM Trung Quốc với trọng số mở.
Bài kiểm tra Q&A cấp độ sau đại học Google-Proof (GPQA) là một loạt các vấn đề trắc nghiệm khó được thiết kế để kiểm tra kiến thức nâng cao. Những người không phải chuyên gia có quyền truy cập internet đạt 34% đúng, các tiến sĩ có quyền truy cập internet đạt 65-70% trong chuyên ngành của họ. Chúng ta có lẽ đã gần đạt đến điểm bão hòa.
Tôi đã ra lệnh cho Codex rằng điều này phải được thực hiện. Dữ liệu từ @EpochAIResearch.
1,45K