Ohýbání prostoru tak, aby odpovídalo energii: jak geometrie zajišťuje chemickou přesnost predikce molekulární struktury Předpovídání 3D struktury molekuly – přesně kde se každý atom nachází v prostoru – je zásadní pro výpočetní chemii. Pokud se trochu spletete, vaše výpočty energie se mohou hodně odchýlit. Zlatým standardem je teorie funkcionálu hustoty, ale DFT je pomalá a drahá. Strojové učení nabízí rychlejší cestu: natrénovat model tak, aby odšumil hrubý počáteční odhad do přesné struktury. Problém je v tom, že většina modelů odšumování funguje v běžném eukleidovském prostoru, kde jsou všechny směry zpracovány stejně. Ale molekuly takto nefungují. Natažení vazby stojí mnohem více energie než otáčení kolem něj. Stejné vzdálenosti v kartézských souřadnicích neznamenají stejné změny energie. Jeheon Woo a spoluautoři se tímto nesouladem přímo zabývají. Konstruují Riemannovu varietu – zakřivený prostor s metrikou závislou na poloze – navrženou tak, aby geodetická vzdálenost koreluovala s rozdílem energie. Metrika je postavena na fyzikálně informovaných vnitřních souřadnicích, které vážejí meziatomové vzdálenosti podle energie potřebné k jejich změně: tuhé vazby jsou důležitější než měkké torze. Když porovnávají geodetickou vzdálenost se standardním RMSD, korelace s energií vyskočí z 0,37 na 0,90. Trénování modelu odšumování na tomto zakřiveném prostoru mění to, co se model učí. V eukleidovském prostoru může přidání izotropního šumu narušit vazby nebo vytvořit nemožné geometrie – struktury o stovky kcal/mol nad minimem. Na Riemannově varietě stejná velikost šumu udržuje molekuly chemicky citlivé a zůstávají ve stejné potenciálové jámě. Samotná cesta odšumování sleduje geodetiky, které sledují minimalizaci energie, nikoli libovolné přímky v kartézském prostoru. Výsledky dosahují hranice, která je důležitá: chemická přesnost, definovaná jako energetická chyba pod 1 kcal/mol. Na benchmarku QM9 dosahuje Riemannův model mediánové chyby 0,177 kcal/mol – přibližně o 20× lepší než počáteční struktury silového pole a výrazně lepší než eukleidovská verze. Když jsou tyto předpovědi použity jako výchozí body pro zpřesnění DFT, výpočetní náklady klesají o více než polovinu. Hlubší bod: v molekulárním modelování geometrie reprezentačního prostoru není neutrální. Eukleidovský prostor považuje všechny atomové posuny za ekvivalentní; Riemannovský prostor může zakódovat fyziku. Když geometrickou vzdálenost zařadíte s energetickými náklady, odšumování se stává optimalizací a model se učí sledovat potenciální energetický povrch místo toho, aby s ním bojoval. Článek: