トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
みんなバイブコーディングにパニックになってる。ホリデーの雰囲気の中で、ロボット工学の西部劇のような不安を共有しさせてください。2025年に学んだ3つの教訓です。
1. ハードウェアはソフトウェアより先行していますが、ハードウェアの信頼性がソフトウェアの反復速度を大きく制限します。
オプティマス、e-アトラス、フィギュア、ネオ、G1などの精緻な工学技術も見てきました。我々の最高のAIがこれらのフロンティアハードウェアからすべての力を絞り出したわけではありません。体は脳が指示する以上の能力を持っています。しかし、これらのロボットの世話には、運用チーム全体が必要です。人間とは違い、ロボットはあざから治りません。過熱、モーターの故障、奇妙なファームウェアの問題が日々私たちを悩ませています。ミスは取り返しのつかない、許されない。
私の忍耐だけが成長した。
2. ベンチマークはロボット工学において依然として大惨事です。
LLMの一般人たちはMMLUやSWE-Benchは常識だと思っていました。ロボット工学のために待って🍺。ハードウェアプラットフォーム、タスク定義、スコアリングルーブリック、シミュレーター、実世界のセットアップなど、誰も意見が一致しません。誰もが定義上、各ニュース発表ごとに即座に設定した基準でSOTAです。みんな100回のリトライの中から一番見た目の良いデモを選びます。
2026年には、私たちは分野としてもっと良くし、再現性や科学的規律を二級市民として扱うのをやめなければなりません。
3. VLMベースのVLAは違和感があります。
VLAは「視覚・言語・行動」モデルの略で、ロボット脳の主流のアプローチとなっています。レシピはシンプルです:事前に訓練済みのVLMチェックポイントを取って、その上にアクションモジュールを重ねるだけです。しかしよく考えてみると、VLMは視覚的な質問応答のようなヒルクライムベンチマークに最適化されています。これは二つの問題を意味します。(1) VLMのほとんどのパラメータは言語や知識のためのものであり、物理学のためのものではない。(2) Q&Aは高レベルの理解のみを必要とするため、視覚エンコーダーは低レベルの詳細を*破棄*するように積極的に調整されています。しかし、器用さには細かいディテールが非常に重要です。
VLAのパフォーマンスがVLMのパラメータのスケールに合わせてスケールする理由はありません。事前訓練はずれています。ビデオワールドモデルはロボット政策の事前学習目標としてはるかに適しているように思えます。私はそれに大きく賭けています。

トップ
ランキング
お気に入り
