Nghiên cứu MỚI từ Meta Superintelligence Labs. Nó sử dụng một khung chiến lược đấu giá thông minh để cải thiện các tác nhân tự cải thiện trong các nhiệm vụ phức tạp. Các tác nhân nhỏ không phải lúc nào cũng đủ. Trong các nhiệm vụ đơn giản nhất, một tác nhân 4B tham số đạt 87% hiệu suất của tác nhân 32B. Nhưng trong các nhiệm vụ phức tạp nhất, hiệu suất tương đối đó giảm xuống chỉ còn 21%. Giả định mặc định ngày nay là bạn hoặc sử dụng mô hình lớn nhất cho mọi thứ hoặc định tuyến các nhiệm vụ với một bộ phân loại đã được đào tạo. Nhưng các bộ định tuyến đã được đào tạo giảm hiệu suất khi độ khó của nhiệm vụ tăng lên, và các chuỗi không dự đoán trở nên tốn kém một cách không thể chấp nhận cho các khối lượng công việc tác nhân. Nghiên cứu mới này giới thiệu SALE (Đấu giá Chiến lược cho Hiệu quả Khối lượng Công việc), một khung được lấy cảm hứng từ các thị trường tự do. Thay vì dự đoán mô hình nào sẽ sử dụng chỉ từ mô tả nhiệm vụ, các tác nhân đấu giá với các kế hoạch chiến lược ngắn gọn được chấm điểm bởi một cơ chế chi phí-giá trị hệ thống. Cách thức hoạt động của cuộc đấu giá? Mỗi tác nhân ứng cử đề xuất một kế hoạch giải pháp chiến lược. Một hội đồng đồng nghiệp chấm điểm các kế hoạch theo giá trị dự đoán. Một dự đoán chi phí heuristics ước lượng chi phí thực hiện. Tác nhân có sự trao đổi chi phí-giá trị tốt nhất sẽ thắng và thực hiện kế hoạch của mình. Cơ chế tự cải thiện là nơi nó trở nên thú vị. Sau mỗi cuộc đấu giá, tất cả các chiến lược được đề xuất được lưu trữ trong một ngân hàng bộ nhớ chung. Các tác nhân rẻ hơn đã thua có thể học hỏi từ các chiến lược thắng và nộp các đấu giá tinh chỉnh, tương tự như việc các freelancer nâng cao kỹ năng theo thời gian. Trong các nhiệm vụ tìm kiếm sâu, SALE vượt qua điểm pass@1 của tác nhân đơn tốt nhất 3.5 điểm trong khi giảm chi phí 35%. Trong các nhiệm vụ lập trình, nó cải thiện pass@1 thêm 2.7 điểm với chi phí thấp hơn 25%. Trên cả hai lĩnh vực, SALE giảm sự phụ thuộc vào tác nhân lớn nhất tới 53%. Các bộ định tuyến hiện có như WTP và FrugalGPT hoặc không đạt hiệu suất của tác nhân lớn nhất hoặc không giảm được chi phí. Chi phí của FrugalGPT thực sự tăng lên trong các nhiệm vụ lập trình phức tạp, đạt 0.61 đô la cho mỗi triệu token so với 0.36 đô la của tác nhân tốt nhất. Các cơ chế phối hợp lấy cảm hứng từ thị trường tổ chức các tác nhân không đồng nhất thành các hệ sinh thái thích ứng có thể vượt trội một cách hệ thống so với cả các mô hình lớn đơn lẻ và các phương pháp định tuyến đã được đào tạo. Bài báo: Học cách xây dựng các Tác nhân AI hiệu quả trong học viện của chúng tôi: