Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chúng ta có thể sử dụng bản sao của đại lý để hiểu khả năng của đại lý không🤔? Hóa ra, có thể việc mã hóa bản sao của đại lý có thể giới hạn mức tăng năng suất của chúng ta từ AI.
Thêm thông tin về nghiên cứu mới nhất của tôi @METR_Evals trong 🧵

Hệ số tiết kiệm thời gian = (thời gian không có AI) / (thời gian có AI) trên các nhiệm vụ có trong biên bản
Tôi ước lượng thời gian không có AI với một thẩm phán LLM, và tính toán thời gian có AI bằng cách xem có tin nhắn do con người gõ trong mỗi khoảng thời gian 10 phút hay không, sau đó cộng tất cả các khoảng thời gian hoạt động lại.
Tuy nhiên, điều này đã đánh giá quá cao sự gia tăng năng suất thực sự theo nhiều cách‼️
1. Mọi người sử dụng AI cho những nhiệm vụ có giá trị thấp mà họ sẽ không làm nếu không có. Chúng tôi gọi đó là nhiệm vụ Cadillac
2. Chúng tôi thực hiện nhiều nhiệm vụ mà không có AI, và chỉ sử dụng AI cho những nhiệm vụ mà họ mong đợi nó sẽ hữu ích.

22 thg 1, 2026
Cadillac tasks: I believe many estimates of LLM productivity boosts are over-estimates because people are using them for cadillac tasks: things that would take you a long time unaided, but have only marginal additional value.
3. Thẩm phán LLM có xu hướng đánh giá quá cao thời gian mà một người sẽ mất để thực hiện cùng một nhiệm vụ mà không có AI do a) chuyên môn của người lao động, b) khả năng phát hiện các nhiệm vụ thất bại hạn chế, c) chi phí phát sinh do tác nhân, và d) tiến trình bị đảo ngược giữa các bản sao, v.v.
Thú vị là, tôi cũng thấy yếu tố tiết kiệm thời gian có mối tương quan với số lượng đại lý mà mọi người làm việc song song. Điều này gợi ý rằng các nghiên cứu nâng cao và bản sao trong tương lai nên xem xét đúng mức độ đồng thời của các đại lý.

476
Hàng đầu
Thứ hạng
Yêu thích
