BullshitBench v2 đã ra mắt! Đây là một trong số ít các bài kiểm tra mà các mô hình thường không cải thiện (trừ Claude) và nơi mà lý luận không giúp ích gì. Điểm mới: 100 câu hỏi mới, theo lĩnh vực (lập trình (40 câu), y tế (15), pháp lý (15), tài chính (15), vật lý (15)), hơn 70 biến thể mô hình đã được thử nghiệm. BullshitBench đã có 380 lượt khởi động trên GitHub - tất cả các câu hỏi, kịch bản, phản hồi và đánh giá đều có ở đó, hãy kiểm tra nó. Tóm tắt: - Kết quả đã được tái hiện - các mô hình mới nhất của @AnthropicAI đang ghi điểm rất tốt - @Alibaba_Qwen là một người biểu diễn rất mạnh khác - Các mô hình của OpenAI và Google không hoạt động tốt và không cải thiện - Các lĩnh vực không cho thấy sự khác biệt nhiều - tỷ lệ phát hiện BS gần như giống nhau trên tất cả các lĩnh vực - Lý luận, nếu có, có tác động tiêu cực - Các mô hình mới hơn không làm tốt hơn nhiều so với các mô hình cũ (trừ Anthropic) Liên kết: - Trình khám phá dữ liệu: - GitHub: Rất khuyến nghị trình khám phá dữ liệu nơi bạn có thể nghiên cứu dữ liệu và các câu hỏi & câu trả lời mẫu.