Tôi đánh giá cao sự trung thực của @Anthropic trong thẻ hệ thống mới nhất của họ, nhưng nội dung của nó không khiến tôi tự tin rằng công ty sẽ hành động có trách nhiệm trong việc triển khai các mô hình AI tiên tiến: -Họ chủ yếu dựa vào một cuộc khảo sát nội bộ để xác định xem Opus 4.6 có vượt qua ngưỡng R&D-4 AI tự động của họ hay không (và do đó sẽ cần các biện pháp bảo vệ mạnh mẽ hơn để phát hành theo Chính sách Mở rộng Có trách nhiệm của họ). Đây thậm chí không phải là một cuộc khảo sát bên ngoài của một bên thứ ba trung lập, mà là một cuộc khảo sát của nhân viên Anthropic. -Khi 5/16 người tham gia khảo sát nội bộ ban đầu đưa ra đánh giá cho thấy có thể cần các biện pháp bảo vệ mạnh mẽ hơn cho việc phát hành mô hình, Anthropic đã theo dõi với những nhân viên đó cụ thể và yêu cầu họ "làm rõ quan điểm của mình." Họ không đề cập đến bất kỳ sự theo dõi tương tự nào cho 11/16 người tham gia còn lại. Không có thảo luận nào trong thẻ hệ thống về cách điều này có thể tạo ra sự thiên lệch trong kết quả khảo sát. -Lý do của họ khi dựa vào các cuộc khảo sát là các đánh giá R&D AI hiện tại của họ đã bão hòa. Một số người có thể lập luận rằng tiến bộ AI đã diễn ra quá nhanh đến mức có thể hiểu rằng họ không có các đánh giá định lượng tiên tiến hơn, nhưng chúng ta có thể và nên yêu cầu các phòng thí nghiệm AI đạt tiêu chuẩn cao. Ngoài ra, các phòng thí nghiệm khác có các đánh giá R&D AI tiên tiến mà không bị bão hòa. Ví dụ, OpenAI có tiêu chuẩn OPQA đo lường khả năng của các mô hình AI trong việc giải quyết các vấn đề nội bộ thực tế mà các nhóm nghiên cứu OpenAI gặp phải và mất hơn một ngày để giải quyết. Tôi không nghĩ Opus 4.6 thực sự ở mức độ của một nhà nghiên cứu AI cấp độ đầu vào từ xa, và tôi không nghĩ rằng việc phát hành nó là nguy hiểm. Nhưng mục đích của Chính sách Mở rộng Có trách nhiệm là xây dựng cơ bắp thể chế và thói quen tốt trước khi mọi thứ trở nên nghiêm trọng. Các cuộc khảo sát nội bộ, đặc biệt là như Anthropic đã thực hiện, không phải là một sự thay thế có trách nhiệm cho các đánh giá định lượng.
Thẻ hệ thống @Anthropic đã có mặt:
289