トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
エージェントのトランスクリプトを使ってエージェントの能力🤔を理解できますか?実は、コーディングエージェントのトランスクリプトがAIによる生産性向上の上限を上限にしてくれる可能性があることがわかりました。
私の最新の研究については、@METR_Evalsで🧵詳しくご覧ください

時間節約係数 = (AIなしの時間) / (AIと過ごす時間)
私はLLM審査員とAIなしでの時間を推定し、10分ごとに人間のタイプメッセージがあるかどうかを見て、すべてのアクティブなウィンドウを合計して時間を計算します。
しかし、これは多くの面で本当の生産性向上を過大評価しています! !️
1. 人々は普段はしないような低価値のタスクにAIを使うこと。私たちはそれをキャデラックタスクと呼んでいます
2. 私たちは多くの作業をAIなしで行い、AIは役に立つと期待されるタスクにのみ使います

2026年1月22日
キャデラックタスク:多くのLLM生産性向上の推定は過大評価だと思います。なぜなら、人々はそれをキャデラックタスク、つまり単独で長時間かかるものの、わずかな追加価値しか得られないタスクに使っているからです。
3. LLMの審査員は、a) ワーカーの専門化、b) 失敗したタスクの検出能力の制限、c) エージェントによるオーバーヘッド、d) トランスクリプト間の進捗が逆転などにより、AIなしで同じタスクを完了するのにかかる時間を過大評価する傾向があります
興味深いことに、時間の節約効果は、人々が同時に働くエージェントの数と相関しているとも感じています。これは、今後の昇華やトランスクリプト研究でエージェントの同時進行度を適切に考慮すべきであることを示唆しています。

474
トップ
ランキング
お気に入り
