О мерах и метриках релевантности информационного поиска в системах по свойствам неорганических веществ
Аннотация
Информационно-справочные системы играют серьезную роль в современном образовании, обеспечивая информационную базу для множества дисциплин. Одной из основных задач при интеграции информационных систем в учебный процесс является обеспечение релевантного поиска информации, консолидированной из гетерогенных источников. В области неорганической химии и материаловедения известны теоретико-множественные методы поиска релевантной информации, обеспечивающие построение достаточно качественного ответа на запросы пользователей. Однако проблема количественной оценки релевантности информационного поиска в этой предметной области пока остается открытой. В настоящей работе предлагается метод количественной оценки релевантности информационного поиска в интегрированных системах по свойствам неорганических веществ и материалов на основе взвешенных графов. Вершинами графа являются разносортные химические объекты (системы, вещества и кристаллические модификации) на которых определяется метрика, оценивающая степень похожести химических объектов. В метрическом пространстве определение стоимости пути между вершинами графа позволяет оценивать близость (релевантность) химических объектов, что является важным для обеспечения поиска родственных химических сущностей и их свойств в контексте интегрированной информационной системы, консолидирующей российские и зарубежные ресурсы по свойствам неорганических веществ (www.imet-db.ru). Таким образом, метрика релевантности (вводится как величина обратно пропорциональная стоимости пути в графе) позволяет оптимальным образом с точки зрения материаловеда ранжировать сведения, выводимые по запросу пользователя в единой точке доступа к консолидированным информационным ресурсам по свойствам неорганических веществ. Дополнительно к метрике на графе определяется мера, полезная при поиске полного информационного описания химического объекта. Мера используется при консолидации всех свойств объекта, доступных в интегрируемых ресурсах, что необходимо при составлении полного аналитического описания.
Литература
[2] Abdurazakov M.M., Monahov V.V., Nimatulaev M.M. What is the Integration of Pedagogical and Information Technologies. Sovremennye informacionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2016; 12(4):6-10. Available at: https://www.elibrary.ru/item.asp?id=28151051 (accessed 02.12.2019). (In Russ., abstract in Eng.).
[3] Kiselyova N.N., Dudarev V.A., Zemskov V.S. Computer Information Resources in Inorganic Chemistry and Materials Science. Russian Chemical Reviews. 2010; 79(2):145-166. (In Eng.) DOI: http://dx.doi.org/10.1070/RC2010v079n02ABEH004104
[4] Kiselyova N.N., Dudarev V.A., Stolyarenko A.V. Integrated system of databases on the properties of inorganic substances and materials. High Temperature. 2016; 54(2):215-222. (In Eng.) DOI: https://doi.org/10.1134/S0018151X16020085
[5] Kiselyova N.N., Dudarev V.A. "Information Resources on Inorganic Chemistry and Materials Science" Database. Informacionnye tehnologii = Information Technology. 2010; 12:63-66. Available at: https://www.elibrary.ru/item.asp?id=15510885 (accessed 02.12.2019). (In Russ., abstract in Eng.).
[6] Pence H.E., Williams A.J. Big Data and Chemical Education. Journal of Chemical Education. 2016; 93(3):504-508. (In Eng.) DOI: https://doi.org/10.1021/acs.jchemed.5b00524
[7] Kornyshko V.F., Dudarev V.A. Software Development for Distributed System of Russian Databases on Electronics Materials. Information Theories & Application. 2006; 13(2):121-126. Available at: http://www.foibg.com/ijita/vol13/ijita13-2-p03.pdf (accessed 02.12.2019). (In Eng.).
[8] Dudarev V.A., Kiselyova N.N., Xu Y., Yamazaki M. Virtual integration of the Russian and Japanese databases on properties of inorganic substances and materials. In: Symposium on Materials Database MITS (2009). Proceedings. Materials Database Station (MDBS). – Tsukuba, Japan; 2009. p. 37-48. (In Eng.).
[9] Dudarev V.A. Integratsiya informatsionnykh sistem v oblasti neorganicheskoy khimii i materialovedeniya [Integration of information systems in the field of inorganic chemistry and materials science] Krasand, Moscow; 2016. (In Russ.).
[10] Zhuravlev Yu.I., Ryazanov V.V., Sen’ko O.V. «RECOGNITION». Matematicheskiye metody. Programmnaya sistema. Prakticheskiye primeneniya [Mathematical methods. Software system. Practical solutions] Phasis, Moscow; 2006. (In Russ.).
[11] Pedregosa F., Varoquaux G., Gramfort A., et al. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research. 2011; 12:2825-2830. Available at: https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf (accessed 02.12.2019). (In Eng.).
[12] Sen’ko O.V., Kiselyova N.N., Dudarev V.A., Dokukin A.A., Ryazanov V.V. Various Machine Learning Methods Efficiency Comparison in Application to Inorganic Compounds Design. In: Kalinichenko L., Manolopoulos Ya., Stupnikov S., Skvortsov N., Sukhomlin V. (eds) Selected Papers of the XX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL’2018). October 9-12, 2018, Moscow. CEUR Workshop Proceedings. 2018; 2277:152-156. Available at: http://ceur-ws.org/Vol-2277/paper27.pdf (accessed 02.12.2019). (In Eng.).
[13] Park S.H., Talebi M., Amos R.I.J., Tyteca E., Haddad P.R., Szucs R., Pohl C.A., Dolan J.W. Towards a chromatographic similarity index to establish localised quantitative structure-retention relationships for retention prediction. II. Use of Tanimoto similarity index in ion chromatography. Journal of Chromatography A. 2017; 1523:173-182. (In Eng.) DOI: https://doi.org/10.1016/j.chroma.2017.2.54
[14] Bjørnøy S.H., Mandaric S., Bassett D.C., Åslund A.K.O., Ucar S., Andreassen J.-P., Strand B.L., Sikorski P. Gelling kinetics and in situ mineralization of alginate hydrogels: A correlative spatiotemporal characterization toolbox. Acta Biomaterialia. 2016; 44:243-253. (In Eng.) DOI: https://doi.org/10.1016/j.actbio.2016.7.46
[15] Park K., Ko Y-J., Durai P., Pan C-H. Machine learning-based chemical binding similarity using evolutionary relationships of target genes. Nucleic Acids Research. 2019; 47(20):e128. (In Eng.) DOI: https://doi.org/10.1093/nar/gkz743
[16] Wassenaara P., Rorijea E., Janssena N., Peijnenburga W., Vijver M. Chemical similarity to identify potential Substances of Very High Concern – An effective screening method. Computational Toxicology. 2019; 12:100110. (In Eng.) DOI: https://doi.org/10.1016/j.comtox.2019.100110
[17] Vogt M., Bajorath J. Modeling Tanimoto Similarity Value Distributions and Predicting Search Results. Molecular Informatics. 2017; 36(7):1600131. (In Eng.) DOI: https://doi.org/10.1002/minf.201600131
[18] Mutton T., Ridley D.D. Understanding Similarities and Differences between Two Prominent Web-Based Chemical Information and Data Retrieval Tools: Comments on Searches for Research Topics, Substances, and Reactions. Journal of Chemical Education. 2019; 96(10):2167-2179. (In Eng.) DOI: https://doi.org/10.1021/acs.jchemed.9b00268
[19] Skinnider M., Dejong C., Franczak B., McNicholas P., Magarvey N. Comparative analysis of chemical similarity methods for modular natural products with a hypothetical structure enumeration algorithm. Journal of Cheminformatics.2017. Vol. 9, Article number: 46. (In Eng.) DOI: https://doi.org/10.1186/s13321-017-0234-y
[20] Wang Z., Liang L., Yin Z., Lin J. Improving chemical similarity ensemble approach in target prediction. Journal of Cheminformatics.2016. Vol. 8, Article number: 20. (In Eng.) DOI: https://doi.org/10.1186/s13321-016-0130-x
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.