エネルギーに合わせて空間を曲げる:幾何学がどのようにして分子構造の予測を化学的精度に導くか 分子の3次元構造、すなわち各原子が空間で正確にどこに位置するかを予測することは、計算化学の基礎です。少しでも間違えると、エネルギー計算が大きくずれてしまうことがあります。ゴールドスタンダードは密度汎関数理論ですが、DFTは遅く高価です。機械学習はより速い方法を提供します。すなわち、モデルを訓練して大まかな初期の推測を正確な構造に除去するのです。 問題は、ほとんどのノイズ除去モデルがすべての方向が等しく扱われる通常のユークリッド空間で動作することです。しかし分子はそうは働きません。結合を伸ばすのは、その結合の周りを回転させるよりもはるかに多くのエネルギーを消費します。デカルト座標系の距離が等しいからといって、エネルギー変化が等しいとは限りません。 ジェホン・ウ氏らはこの不一致に直接取り組んでいます。彼らはリーマン多様体を構築します。これは位置依存の計量を持つ曲がった空間であり、測地線距離がエネルギー差と相関するように設計されています。この計量は、物理学に基づいた内部座標に基づいて構築されており、原子間距離を変化にかかるエネルギーの量で重み付けします。硬い結合は軟ねじれよりも重要視されます。測地線距離と標準RMSDを比較すると、エネルギーとの相関は0.37から0.90に跳ね上がります。 この曲がった空間でノイズ除去モデルを訓練すると、モデルが学習する内容が変わります。ユークリッド空間では、等方性ノイズを加えることで結合が切断されたり、最小の数百kcal/molを超える不可能な幾何学構造が生まれることがあります。リーマン多様体では、同じノイズ大きさが分子を化学的に感度度に保ち、同じポテンシャル井戸内にとどまります。ノイズ除去経路自体はエネルギー最小化を追う測地線に従い、デカルト空間内の任意の直線を追うわけではありません。 結果は重要な閾値、すなわち化学的精度(エネルギー誤差1kcal/mol未満)に達します。QM9ベンチマークでは、リーマンモデルの中央値誤差は0.177 kcal/molとなり、力場開始構造より約20×良好で、ユークリッドモデルよりも大幅に優れています。これらの予測をDFTの精緻化の出発点として用いると、計算コストは半分以上に減少します。 より深い点:分子モデリングにおいて、表現空間の幾何学は中立的ではありません。ユークリッド空間はすべての原子変位を等価と扱います。リーマン空間は物理を符号化できます。幾何学的距離をエネルギーコストに合わせると、ノイズ除去が最適化となり、モデルはポテンシャルエネルギー面と戦うのではなく、その特性に従うことを学習します。 論文: