先月のNeurIPS 2025カンファレンスで、YCの@aguptaはCartesiaの創業者兼CEOである@krandiash氏に対談し、今日のAIアーキテクチャが根本的に限界がある可能性について説明しました。 彼らはトランスフォーマーが学習システムよりも検索システムのように機能すること、新しいモデルアプローチがどこに適合するか、そして真のマルチモーダル知能が何を必要としているかについて議論しています。また、CartesiaがAI音声を始めた理由や、研究主導のチームがどのように深い研究を実際の製品に変えるかも解説しています。 00:11 — カルテシアの紹介 00:26 — 建築研究からスタートアップへ 01:20 — 「建築研究」とは何か 02:18 — なぜトランスフォーマーは天井にぶつかるのか 03:33 — 状態空間モデルの解明 04:21 — インテリジェンスと圧縮 05:47 — 検索対抽象化 06:41 — ハイブリッドアーキテクチャと未来 07:13 — なぜカルテシアがボイスAIを選んだのか 08:25 — マルチモダリティの実際の意味 09:20 — 他のモダリティのレシピとしての音声 10:09 — トークン、表現、学習信号 11:37 — エンド・トゥ・エンドの表象学習 12:29 — 「平均的な人間のための建築」 13:54 — リサーチとプロダクトリアリティ 15:18 — 一つの幻影、容赦なく実行される 16:28 — 研究用真実薬としての製品 17:25 — スタートアップ重力は研究にも適用される