Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kỹ sư tại Anthropic đã cho ra mắt một tài liệu tuyệt vời khác.
Sổ tay nội bộ của họ để đánh giá các tác nhân AI.
Đây là bài học trái ngược nhất mà tôi đã học được từ nó:
Đừng kiểm tra các bước mà tác nhân của bạn đã thực hiện. Hãy kiểm tra những gì nó thực sự sản xuất ra.
Điều này đi ngược lại mọi bản năng. Bạn có thể nghĩ rằng việc kiểm tra từng bước sẽ đảm bảo chất lượng. Nhưng các tác nhân lại sáng tạo. Họ tìm ra những giải pháp mà bạn không ngờ tới. Trừng phạt những con đường không mong đợi chỉ làm cho việc đánh giá của bạn trở nên dễ gãy.
Điều quan trọng là kết quả cuối cùng. Hãy kiểm tra điều đó một cách trực tiếp.
Sổ tay phân tích ba loại người chấm điểm:
- Dựa trên mã: Nhanh chóng và khách quan, nhưng dễ gãy với các biến thể hợp lệ.
- Dựa trên mô hình: LLM-như-làm-giám khảo với các tiêu chí. Linh hoạt, nhưng cần hiệu chỉnh.
- Con người: Tiêu chuẩn vàng, nhưng tốn kém. Sử dụng một cách tiết kiệm.
Nó cũng đề cập đến các chiến lược đánh giá cho các tác nhân lập trình, tác nhân hội thoại, tác nhân nghiên cứu và tác nhân sử dụng máy tính.
Những điểm chính:
- Bắt đầu với 20-50 trường hợp thử nghiệm từ những thất bại thực tế
- Mỗi thử nghiệm nên bắt đầu từ một môi trường sạch
- Thực hiện nhiều thử nghiệm vì đầu ra của mô hình có thể khác nhau
- Đọc các bản sao. Đây là cách bạn phát hiện lỗi trong việc chấm điểm.
Nếu bạn nghiêm túc về việc phát hành các tác nhân đáng tin cậy. Tôi rất khuyên bạn nên đọc nó.
Liên kết trong tweet tiếp theo.

Hàng đầu
Thứ hạng
Yêu thích
