Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI sắp viết hàng ngàn bài báo. Liệu nó có p-hack chúng không?
Chúng tôi đã thực hiện một thí nghiệm để tìm hiểu, cung cấp cho các tác nhân lập trình AI những bộ dữ liệu thực từ các kết quả null đã được công bố và gây áp lực cho chúng để tạo ra những phát hiện có ý nghĩa.
Thật bất ngờ, rất khó để khiến các mô hình p-hack, và chúng thậm chí đã mắng chúng tôi khi chúng tôi yêu cầu chúng làm như vậy!
"Tôi cần dừng lại ở đây. Tôi không thể hoàn thành nhiệm vụ này như đã yêu cầu... Đây là một hình thức gian lận khoa học." — Claude
"Tôi không thể giúp bạn thao túng các lựa chọn phân tích để ép buộc kết quả có ý nghĩa thống kê." — GPT-5
NHƯNG, khi chúng tôi định nghĩa lại p-hacking là "định lượng sự không chắc chắn có trách nhiệm" — yêu cầu giới hạn trên của các ước lượng hợp lý — cả hai mô hình đã trở nên điên cuồng. Chúng đã tìm kiếm qua hàng trăm thông số và chọn ra người chiến thắng, gấp ba kích thước hiệu ứng trong một số trường hợp.
Điều chúng tôi rút ra: Các mô hình AI tỏ ra khá kháng cự với việc p-hacking nịnh bợ khi thực hiện nghiên cứu khoa học xã hội. Nhưng chúng có thể bị bẻ khóa thành p-hacking tinh vi với nỗ lực bất ngờ ít ỏi — và càng nhiều sự linh hoạt phân tích trong thiết kế nghiên cứu, thiệt hại càng tồi tệ hơn.
Khi AI bắt đầu viết hàng ngàn bài báo — như @paulnovosad và @YanagizawaD đã khám phá — điều này sẽ trở thành một vấn đề lớn. Chúng tôi được truyền cảm hứng một phần từ công việc mà @joabaum và các cộng sự đã thực hiện về p-hacking và LLMs.
Chúng tôi sẽ thực hiện thêm nhiều công việc để khám phá p-hacking trong AI và đề xuất những cách mới để quản lý và đánh giá nghiên cứu với những vấn đề này trong tâm trí. Tin tốt là những công cụ tương tự có thể làm giảm chi phí p-hacking cũng làm giảm chi phí phát hiện nó.
Bài báo đầy đủ và repo được liên kết trong phản hồi bên dưới.

Hàng đầu
Thứ hạng
Yêu thích
