Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tôi muốn làm rõ một vài điểm, mà chúng tôi tin rằng đã rõ trong bài báo của chúng tôi nhưng không rõ trong bài đăng ban đầu của tôi (phân tích lại dữ liệu @METR_Evals).
Đóng góp của chúng tôi là đề xuất tiến bộ như một sản phẩm nhân của các hàm sigmoid xung quanh các đổi mới khác nhau. Dựa trên dữ liệu METR, chúng tôi chia nó thành các cải tiến về khả năng cơ bản (kích thước dữ liệu/mô hình) và lý luận.
Chúng tôi cho thấy rằng sản phẩm này cung cấp một sự phù hợp *trong mẫu* tương tự với các tập dữ liệu nhỏ mà chúng tôi quan sát như sự tăng trưởng theo cấp số nhân. Tuy nhiên, các hệ quả thì rất khác biệt! Dưới mô hình của chúng tôi, chúng tôi sẽ cần những đổi mới liên tục (tương tự như lý luận) để thấy được sự tiến bộ theo cấp số nhân liên tục.
Điều này không có nghĩa là chúng tôi loại trừ sự tiến bộ theo cấp số nhân, hay rằng sản phẩm của các hàm sigmoid của chúng tôi là mô hình đúng. Chỉ đơn giản là nói rằng có ít điểm và nhiều mô hình tiềm ẩn có thể với những hệ quả rất khác nhau.
Sự phù hợp của sản phẩm sigmoid của chúng tôi thực sự rất tốt khi giữ lại GPT 5.2 và/hoặc Gemini 3 pro. Chúng tôi có vẻ tệ hơn khi giữ lại Claude Opus 4.5, nhưng vẫn có thể chấp nhận được. Mục tiêu của chúng tôi không phải là tranh cãi về các chỉ số OOS trên một vài điểm dữ liệu, mà là chỉ ra rằng các dự đoán hiện tại là mong manh, và không mô hình hóa sự kế thừa của các đổi mới khác nhau. (Có một vài sự phù hợp khác đang lưu hành trên X, nhưng chúng dường như không sử dụng sản phẩm sigmoid mà chúng tôi đề xuất nên tôi không thể nói rõ điều gì đang diễn ra ở đó...)
Tôi xin lỗi vì bài đăng trước đó của tôi không có sự tinh tế – chúng tôi hy vọng mọi người sẽ đọc bài báo!
Hàng đầu
Thứ hạng
Yêu thích
