私たちはAIを科学として評価する方法に根本的な問題を抱えています。 現在のベンチマークは孤立した能力をテストしています - AIはデータを分析できるのか?仮説を立てる?設計実験? しかし、実際の研究はそういうものではありません 🧵
私たちは先日、AI科学者を孤立したタスク実行者ではなく研究の共同操縦者として評価する新しい方法を提案するプレプリントを発表しました。 これらの学びは、バイオエージェントを世界最高の科学エージェントへと再構築する方向に導いています。 @arxivで論文をお読みください:
私たちが解決しようとした主な問題は、現在の科学向けAIベンチマークが生物医学研究者の実際のワークフローを捉えきれていないことです。 例:ポスドクが月曜日に遺伝データを分析し、火曜日に仮説を修正し、木曜日に修正された予算に基づいてプロトコルを調整し、翌週すべてを提案書に統合します。 現在のベンチマークは別途以下をテストします: * データ分析品質✓ * 仮説の妥当性✓ * プロトコル設計✓ しかし、AIが木曜日の実験設計時に火曜日の仮説を覚えていたのか、あるいは木曜日の予算制約が月曜日の提案に反映されたのかは評価していません。
3,200+の論文を選別し、レビューでは5つの評価次元を特定しました。 * 従来のパフォーマンス指標 * 多段階推論と実験計画 * 安全性およびエラー検出 * 知識統合 * ツール拡張ワークフロー しかし、私たちが繰り返し見落としていたのは、実際の研究開発サイクルや実験設計でこれらの次元がどのように組み合わさって機能するかということです。 AIはすべてのベンチマークを完璧にクリアしても、研究パートナーとしては苦労します。 @ilyasut最近@dwarkesh_spポッドキャストで同様の指摘をしており、今日のAIモデルがコーディングエージェントとしてより複雑なタスクに一般化できていないことを指摘しています。
これらの失敗パターンは理論的なものではありません。 Recursion Pharmaceuticalsは週に220万件のAI誘導実験を実施し、ラボオートメーション市場は年間7〜8%成長しています。 高リスク研究におけるAIのデポイングには、科学的妥当性、再現性、安全性の厳格な検証が求められます。
純粋に能力ベンチマークからワークフローベンチマークも含める展開を提案しています。 4つの次元は、単一のタスクスコアよりもはるかに重要です。 1. 対話の質 - コミットする前に明確な質問をしますか? 2. ワークフローオーケストレーション - 後の段階は以前の制約を反映しているか? 3. セッションの連続性 - 日を越えた文脈を記憶しているか? 4. 研究者経験 - 信頼を適切に調整できるか?
ワークフローベンチマークは、実際の科学が行うようにAIのストレステストを目指しています。 不完全なデータ、変動する予算、矛盾した結果、PIからのフィードバック、予期せぬ失敗などが続きます。 AIは適応するのか、それとも硬直し幻覚に陥るのか? 真の研究パートナーは前者だけです。
結論として、孤立したタスクで高得点を取ったシステムは、研究の副操縦士として失敗することがあります。 科学者の実際の働き方に合わせてベンチマークを拡大する時です。反復的で会話的で制約意識があり、複数のセッションにまたがるものです。 科学におけるAIの未来はこれにかかっています。
7.64K