Сгибание пространства для соответствия энергии: как геометрия помогает предсказанию молекулярной структуры с химической точностью Предсказание 3D-структуры молекулы — где именно находится каждый атом в пространстве — является основополагающим для вычислительной химии. Если вы ошибетесь хоть немного, ваши расчеты энергии могут оказаться значительно неверными. Золотым стандартом является теория функционала плотности, но DFT медлительна и дорогостоящая. Машинное обучение предлагает более быстрый путь: обучить модель, чтобы она устраняла шум из грубого первоначального предположения и превращала его в точную структуру. Проблема в том, что большинство моделей устранения шума работает в обычном евклидовой пространстве, где все направления рассматриваются одинаково. Но молекулы не работают таким образом. Увеличение длины связи требует гораздо больше энергии, чем вращение вокруг нее. Равные расстояния в декартовых координатах не означают равные изменения энергии. Джехон У и соавторы напрямую решают эту несоответствие. Они строят риманову многообразие — изогнутое пространство с зависимой от положения метрикой — так, чтобы геодезическое расстояние коррелировало с разницей энергии. Метрика строится из физически обоснованных внутренних координат, которые взвешивают межатомные расстояния в зависимости от того, сколько энергии требуется для их изменения: жесткие связи учитываются больше, чем мягкие торсии. Когда они сравнивают геодезическое расстояние с обычным RMSD, корреляция с энергией увеличивается с 0.37 до 0.90. Обучение модели устранения шума в этом изогнутом пространстве изменяет то, что модель изучает. В евклидовой пространстве добавление изотропного шума может разрывать связи или создавать невозможные геометрии — структуры на сотни kcal/mol выше минимума. На римановом многообразии та же величина шума сохраняет молекулы химически разумными, оставаясь в пределах одного и того же потенциального колодца. Путь устранения шума сам следует геодезическим, которые отслеживают минимизацию энергии, а не произвольные прямые линии через декартово пространство. Результаты достигают порога, который имеет значение: химическая точность, определяемая как ошибка энергии ниже 1 kcal/mol. На контрольном тесте QM9 римановая модель достигает медианной ошибки 0.177 kcal/mol — примерно в 20 раз лучше, чем начальные структуры силового поля и значительно лучше, чем евклидова версия. Когда эти предсказания используются в качестве начальных точек для уточнения DFT, вычислительная стоимость снижается более чем вдвое. Глубокая мысль: в молекулярном моделировании геометрия пространства представления не является нейтральной. Евклидово пространство рассматривает все атомные смещения как эквивалентные; риманово пространство может кодировать физику. Когда вы выравниваете геометрическое расстояние с энергетической стоимостью, устранение шума становится оптимизацией, и модель учится следовать поверхности потенциальной энергии, а не бороться с ней. Статья: