Vědci z CIIRC a ÚOCHB stojí v čele iniciativy pro objevování molekul s využitím umělé inteligence

Bratři Roman a Anton Bushuievovi z týmů Tomáše Pluskala z ÚOCHB a Josefa Šivice z Českého institutu informatiky, robotiky a kybernetiky ČVUT v Praze (CIIRC ČVUT) vloni zahájili spolupráci s odborníky ze 14 výzkumných institucí po celém světě na procesu systematického srovnávání a hodnocení metod umělé inteligence využívaných pro objevování molekul z dat hmotnostní spektrometrie. Cílem společného projektu s názvem MassSpecGym je podnítit vývoj další generace modelů strojového učení pro identifikaci nových přírodních molekul s využitím ve vývoji léčiv, ve vědách o životním prostředí nebo v kosmickém výzkumu.
První úspěch na sebe nenechal dlouho čekat. Výsledky této mezioborové iniciativy byly v prosinci 2024 prezentovány na jedné z nejvýznamnějších světových konferencí o strojovém učení – NeurIPS 2024 ve Vancouveru.
Objevování malých molekul významně ovlivňuje řadu vědeckých oblastí, jako je organická chemie, molekulární biologie, vývoj léčiv a environmentální analýza. Navzdory významnému pokroku se ale zatím podařilo odhalit jen malý zlomek molekulární rozmanitosti života.

Základní metodou pro identifikaci molekulárních struktur z biologických a environmentálních vzorků je tandemová hmotnostní spektrometrie. Ta umožňuje využití při objevování biologicky aktivních sloučenin pro vývoj léčiv, optimalizaci dávkování léčiv v klinické praxi nebo detekci stopových množství znečišťujících látek v životním prostředí. Podstatou tandemové hmotnostní spektrometrie je fragmentace molekul a záznam hmotností těchto fragmentů.
„Z typického biologického nebo environmentálního vzorku je možné změřit tisíce tandemových hmotnostních spekter, z nichž každé zpravidla představuje samostatnou molekulu. Popis těchto spekter pomocí molekulárních struktur je však stále výzva, přičemž pomocí nejmodernějších metod strojového učení se podaří popsat méně než 10 % spekter. Velká část chemického prostoru tak zůstává neobjevená, což brzdí další vědecký a technologický pokrok,“ říká Tomáš Pluskal z ÚOCHB.
V současné době je vývoj metod umělé inteligence (AI) pro hmotnostní spektrometrii omezen tím, že chybí dobře standardizované trénovací datové sady a hodnotící protokoly. Projekt „MassSpecGym: Benchmark pro objevování a identifikaci molekul“ toto omezení řeší.
„Standardizované benchmarky strojového učení, jako je ImageNet, způsobily revoluci v oblasti umělé inteligence tím, že určily referenční měřítka vývoje, hodnocení a posuzování pokroku. Podobně navrhujeme referenční standardy pro objevování molekul, které se zaměří na popis tandemových hmotnostních spekter, a snažíme se tím podpořit novou generaci AI modelů pro odhalování dosud neobjevených chemických látek vyskytujících se v přírodě,“ vysvětluje doktorand a hlavní autor projektu Roman Bushuiev.

MassSpecGym zahrnuje tři základní komponenty: (i) největší veřejně dostupnou datovou sadu tandemových hmotnostních spekter označených molekulárními strukturami, (ii) tři přesně definované úlohy strojového učení, které převádějí proces objevování molekul z hmotnostních spekter do dobře definovaných výpočetních problémů, a (iii) pečlivě vybrané páry hmotnostních spekter a molekul určené k vyhodnocení schopnosti modelů umělé inteligence zobecňovat naučené znalosti na nové molekuly. Kromě toho MassSpecGym poskytuje uživatelsky přívětivou platformu pro vývoj a vyhodnocování nových AI modelů.
Vědecká práce MassSpecGym byla vybrána pro „Spotlight” prezentaci na konferencí o strojovém učení NeurIPS 2024 ve Vancouveru, která je jednou z nejprestižnějších konferencí v oblasti strojového učení a podle Google Scholar se řadí mezi deset nejvýznamnějších časopisů a konferencí na světě.
Tento výzkum je spolufinancován z projektů EU FRONTIER (č. 101097822) a ELIAS (č. 101120237).
Původní článek: R. Bushuiev, A. Bushuiev, N. F. de Jonge, A. Young, F. Kretschmer, R. Samusevich, J. Heirman, F. Wang, L. Zhang, K. Dührkop, M. Ludwig, N. A. Haupt, A. Kalia, C. Brungs, R. Schmid, R. Greiner, B. Wang, D. S. Wishart, L.-P. Liu, J. Rousu, W. Bittremieux, H. Rost, T. D. Mak, S. Hassoun, F. Huber, J. J. J. van der Hooft, M. A. Stravs, S. Böcker, J. Sivic, T. Pluskal, “MassSpecGym: A benchmark for the discovery and identification of molecules”, Advances in Neural Information Processing Systems (NeurIPS), 2024. https://doi.org/10.48550/arXiv.2410.23326