О мерах и метриках релевантности информационного поиска в системах по свойствам неорганических веществ

  • Victor Anatolevich Dudarev Национальный исследовательский университет "Высшая школа экономики"; Национальный исследовательский технологический университет "МИСиС" http://orcid.org/0000-0001-7243-9096
  • Igor Olegovich Temkin Национальный исследовательский технологический университет "МИСиС" http://orcid.org/0000-0001-8150-6529

Аннотация

Информационно-справочные системы играют серьезную роль в современном образовании, обеспечивая информационную базу для множества дисциплин. Одной из основных задач при интеграции информационных систем в учебный процесс является обеспечение релевантного поиска информации, консолидированной из гетерогенных источников. В области неорганической химии и материаловедения известны теоретико-множественные методы поиска релевантной информации, обеспечивающие построение достаточно качественного ответа на запросы пользователей. Однако проблема количественной оценки релевантности информационного поиска в этой предметной области пока остается открытой. В настоящей работе предлагается метод количественной оценки релевантности информационного поиска в интегрированных системах по свойствам неорганических веществ и материалов на основе взвешенных графов. Вершинами графа являются разносортные химические объекты (системы, вещества и кристаллические модификации) на которых определяется метрика, оценивающая степень похожести химических объектов. В метрическом пространстве определение стоимости пути между вершинами графа позволяет оценивать близость (релевантность) химических объектов, что является важным для обеспечения поиска родственных химических сущностей и их свойств в контексте интегрированной информационной системы, консолидирующей российские и зарубежные ресурсы по свойствам неорганических веществ (www.imet-db.ru). Таким образом, метрика релевантности (вводится как величина обратно пропорциональная стоимости пути в графе) позволяет оптимальным образом с точки зрения материаловеда ранжировать сведения, выводимые по запросу пользователя в единой точке доступа к консолидированным информационным ресурсам по свойствам неорганических веществ. Дополнительно к метрике на графе определяется мера, полезная при поиске полного информационного описания химического объекта. Мера используется при консолидации всех свойств объекта, доступных в интегрируемых ресурсах, что необходимо при составлении полного аналитического описания.

Сведения об авторах

Victor Anatolevich Dudarev, Национальный исследовательский университет "Высшая школа экономики"; Национальный исследовательский технологический университет "МИСиС"

доцент Департамента программной инженерии, факультет компьютерных наук; доцент кафедры автоматизированных систем управления, Институт информационных технологий и автоматизированных систем управления, кандидат технических наук, доцент

Igor Olegovich Temkin, Национальный исследовательский технологический университет "МИСиС"

заведующий кафедрой автоматизированных систем управления, Институт информационных технологий и автоматизированных систем управления, доктор технических наук, профессор

Литература

[1] Blokhin E., Villars P. The PAULING FILE Project and Materials Platform for Data Science: From Big Data Toward Materials Genome. In: W. Andreoni, S. Yip (ed.) Handbook of Materials Modeling. Springer, Cham; 2019. p. 1-25. (In Eng.) DOI: https://doi.org/10.1007/978-3-319-42913-7_62-2
[2] Abdurazakov M.M., Monahov V.V., Nimatulaev M.M. What is the Integration of Pedagogical and Information Technologies. Sovremennye informacionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2016; 12(4):6-10. Available at: https://www.elibrary.ru/item.asp?id=28151051 (accessed 02.12.2019). (In Russ., abstract in Eng.).
[3] Kiselyova N.N., Dudarev V.A., Zemskov V.S. Computer Information Resources in Inorganic Chemistry and Materials Science. Russian Chemical Reviews. 2010; 79(2):145-166. (In Eng.) DOI: http://dx.doi.org/10.1070/RC2010v079n02ABEH004104
[4] Kiselyova N.N., Dudarev V.A., Stolyarenko A.V. Integrated system of databases on the properties of inorganic substances and materials. High Temperature. 2016; 54(2):215-222. (In Eng.) DOI: https://doi.org/10.1134/S0018151X16020085
[5] Kiselyova N.N., Dudarev V.A. "Information Resources on Inorganic Chemistry and Materials Science" Database. Informacionnye tehnologii = Information Technology. 2010; 12:63-66. Available at: https://www.elibrary.ru/item.asp?id=15510885 (accessed 02.12.2019). (In Russ., abstract in Eng.).
[6] Pence H.E., Williams A.J. Big Data and Chemical Education. Journal of Chemical Education. 2016; 93(3):504-508. (In Eng.) DOI: https://doi.org/10.1021/acs.jchemed.5b00524
[7] Kornyshko V.F., Dudarev V.A. Software Development for Distributed System of Russian Databases on Electronics Materials. Information Theories & Application. 2006; 13(2):121-126. Available at: http://www.foibg.com/ijita/vol13/ijita13-2-p03.pdf (accessed 02.12.2019). (In Eng.).
[8] Dudarev V.A., Kiselyova N.N., Xu Y., Yamazaki M. Virtual integration of the Russian and Japanese databases on properties of inorganic substances and materials. In: Symposium on Materials Database MITS (2009). Proceedings. Materials Database Station (MDBS). – Tsukuba, Japan; 2009. p. 37-48. (In Eng.).
[9] Dudarev V.A. Integratsiya informatsionnykh sistem v oblasti neorganicheskoy khimii i materialovedeniya [Integration of information systems in the field of inorganic chemistry and materials science] Krasand, Moscow; 2016. (In Russ.).
[10] Zhuravlev Yu.I., Ryazanov V.V., Sen’ko O.V. «RECOGNITION». Matematicheskiye metody. Programmnaya sistema. Prakticheskiye primeneniya [Mathematical methods. Software system. Practical solutions] Phasis, Moscow; 2006. (In Russ.).
[11] Pedregosa F., Varoquaux G., Gramfort A., et al. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research. 2011; 12:2825-2830. Available at: https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf (accessed 02.12.2019). (In Eng.).
[12] Sen’ko O.V., Kiselyova N.N., Dudarev V.A., Dokukin A.A., Ryazanov V.V. Various Machine Learning Methods Efficiency Comparison in Application to Inorganic Compounds Design. In: Kalinichenko L., Manolopoulos Ya., Stupnikov S., Skvortsov N., Sukhomlin V. (eds) Selected Papers of the XX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL’2018). October 9-12, 2018, Moscow. CEUR Workshop Proceedings. 2018; 2277:152-156. Available at: http://ceur-ws.org/Vol-2277/paper27.pdf (accessed 02.12.2019). (In Eng.).
[13] Park S.H., Talebi M., Amos R.I.J., Tyteca E., Haddad P.R., Szucs R., Pohl C.A., Dolan J.W. Towards a chromatographic similarity index to establish localised quantitative structure-retention relationships for retention prediction. II. Use of Tanimoto similarity index in ion chromatography. Journal of Chromatography A. 2017; 1523:173-182. (In Eng.) DOI: https://doi.org/10.1016/j.chroma.2017.2.54
[14] Bjørnøy S.H., Mandaric S., Bassett D.C., Åslund A.K.O., Ucar S., Andreassen J.-P., Strand B.L., Sikorski P. Gelling kinetics and in situ mineralization of alginate hydrogels: A correlative spatiotemporal characterization toolbox. Acta Biomaterialia. 2016; 44:243-253. (In Eng.) DOI: https://doi.org/10.1016/j.actbio.2016.7.46
[15] Park K., Ko Y-J., Durai P., Pan C-H. Machine learning-based chemical binding similarity using evolutionary relationships of target genes. Nucleic Acids Research. 2019; 47(20):e128. (In Eng.) DOI: https://doi.org/10.1093/nar/gkz743
[16] Wassenaara P., Rorijea E., Janssena N., Peijnenburga W., Vijver M. Chemical similarity to identify potential Substances of Very High Concern – An effective screening method. Computational Toxicology. 2019; 12:100110. (In Eng.) DOI: https://doi.org/10.1016/j.comtox.2019.100110
[17] Vogt M., Bajorath J. Modeling Tanimoto Similarity Value Distributions and Predicting Search Results. Molecular Informatics. 2017; 36(7):1600131. (In Eng.) DOI: https://doi.org/10.1002/minf.201600131
[18] Mutton T., Ridley D.D. Understanding Similarities and Differences between Two Prominent Web-Based Chemical Information and Data Retrieval Tools: Comments on Searches for Research Topics, Substances, and Reactions. Journal of Chemical Education. 2019; 96(10):2167-2179. (In Eng.) DOI: https://doi.org/10.1021/acs.jchemed.9b00268
[19] Skinnider M., Dejong C., Franczak B., McNicholas P., Magarvey N. Comparative analysis of chemical similarity methods for modular natural products with a hypothetical structure enumeration algorithm. Journal of Cheminformatics.2017. Vol. 9, Article number: 46. (In Eng.) DOI: https://doi.org/10.1186/s13321-017-0234-y
[20] Wang Z., Liang L., Yin Z., Lin J. Improving chemical similarity ensemble approach in target prediction. Journal of Cheminformatics.2016. Vol. 8, Article number: 20. (In Eng.) DOI: https://doi.org/10.1186/s13321-016-0130-x
Опубликована
2020-05-25
Как цитировать
DUDAREV, Victor Anatolevich; TEMKIN, Igor Olegovich. О мерах и метриках релевантности информационного поиска в системах по свойствам неорганических веществ. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 16, n. 1, p. 13-22, may 2020. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/610>. Дата доступа: 30 oct. 2020 doi: https://doi.org/10.25559/SITITO.16.202001.13-22.
Раздел
Теоретические вопросы информатики, прикладной математики, компьютерных наук