Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Khung
Ý tưởng meta-benchmark: Một bộ sưu tập các khung tác nhân cơ bản (AGENTS.md, tài liệu, kỹ năng, hooks) bao gồm các ứng dụng không tầm thường, mỗi ứng dụng có một prompt duy nhất để tạo ra ứng dụng từ đầu chỉ trong một lần. Khi các tác nhân lập trình hoặc mô hình mới ra mắt, chúng ta có thể chạy thử nghiệm với khung để so sánh trực tiếp với các phiên bản mô hình trước đó. "Mô hình này đã viết một trình duyệt từ đầu từ khung trình duyệt tiêu chuẩn với độ hoàn thiện tính năng X% và chỉ Y dòng mã trong Z giờ với $XYZ."
Hãy tưởng tượng việc thấy trình duyệt Cursor được phát triển qua lăng kính của mỗi bản cập nhật mô hình tiếp theo. Mã có tốt không? Bộ xử lý có nhanh không? Bộ tính năng có đầy đủ không? Tác nhân đã phải chạy trong bao lâu? Tổng chi phí của các token là bao nhiêu?
Giống như một Vườn Zen CSS (đã làm rất nhiều để thúc đẩy tiêu chuẩn trình duyệt) cho các khung tác nhân.
Tôi cảm thấy tất cả chúng ta đều đã trải nghiệm sự khác biệt trong Codex 5.4 Extra High (nếu không, hãy ngừng đọc bài viết này và thử ngay lập tức), nhưng chúng ta vẫn chưa có cách nào để ghi lại trong một benchmark trải nghiệm định tính khi sử dụng nó như một nhà phát triển, đặc biệt là cho các chỉ số như kiến trúc và chất lượng mã.
Hàng đầu
Thứ hạng
Yêu thích
