Метод определения периода зашумленной периодической символьной последовательности, основанный на позициях подслов в последовательности

  • Galina Nikolaevna Zhukova Национальный исследовательский университет "Высшая школа экономики" http://orcid.org/0000-0003-1835-7422
  • Alexey Vladimirovich Zhukov Национальный исследовательский центр "Курчатовский институт" http://orcid.org/0000-0002-7266-467X
  • Yuri Gennadievich Smetanin Федеральный исследовательский центр "Информатика и управление" РАН http://orcid.org/0000-0003-0242-6972
  • Mikhail Vasilevich Ulyanov Институт проблем управления им. В.А. Трапезникова РАН; Московский государственный университет имени М.В. Ломоносова http://orcid.org/0000-0002-5784-9836

Аннотация

Предложен метод определения периода искаженной шумом периодической последовательности. Период почти периодической последовательности — это длина наименьшего периодически повторяющегося фрагмента, образующего соответствующую обычную периодическую последовательность. Метод может быть применен для искаженных периодических последовательностей, полученных из периодических последовательностей, состоящих из, по крайней мере, восьми полных периодически повторяющихся минимальных фрагментов.
В соответствующих периодических последовательностях с шумом замены, вставки и удаления некоторые периодические фрагменты могут быть искажены из-за внесения шума. Уровень шума предполагается менее 10%, это предположение позволяет использовать оператор сдвига с окном ширины 16 и наблюдать в этом окне более двух раз каждый неповрежденный фрагмент длины 16, содержащийся в исследуемой последовательности.
Метод основан на подсчете числа символов в слове w между первыми символами ближайших одинаковых подслов длины 16. Для вычисления разностей между левыми позициями соседних одинаковых подслов используются только подслова, встретившиеся в рассматриваемом слове более двух раз. Все найденные разности располагаются в порядке возрастания и находятся квантиль 25% и медиана в последовательности разностей.
Вычислительный эксперимент показал, что 25% квантиль дает удовлетворительную оценку периода при уровне шума менее 5 %. Иногда метод дает достаточно хороший результат в случае шума от 5 до 10 %. Зависимость доли удовлетворительных оценок периода от уровня шума исследовалась для каждого типа шума отдельно, а также для смеси шумов всех трех типов в одинаковых пропорциях. Вычислительный эксперимент показал, что 25% квантиль дает более точную оценку периода, чем медиана. Предполагается улучшить метод таким образом, чтобы восстанавливать саму периодическую последовательность только по последовательности с шумом.

Сведения об авторах

Galina Nikolaevna Zhukova, Национальный исследовательский университет "Высшая школа экономики"

доцент Департамента программной инженерии, факультет компьютерных наук, кандидат физико-математических наук, доцент

Alexey Vladimirovich Zhukov, Национальный исследовательский центр "Курчатовский институт"

ведущий инженер-программист

Yuri Gennadievich Smetanin, Федеральный исследовательский центр "Информатика и управление" РАН

главный научный сотрудник, Вычислительный центр им. А.А. Дородницына РАН, доктор физико-математических наук

Mikhail Vasilevich Ulyanov, Институт проблем управления им. В.А. Трапезникова РАН; Московский государственный университет имени М.В. Ломоносова

ведущий научный сотрудник; профессор кафедры алгоритмических языков, факультет вычислительной математики и кибернетики, доктор технических наук, профессор

Литература

[1] Zhukova G., Smetanin Y., Uljanov M. Informative Symbolic Representations as a Way to Qualitatively Analyze Time Series. In: 2019 International Conference on Engineering Technologies and Computer Science (EnT). Moscow, Russia; 2019. p. 43-47. (In Eng.) DOI: https://doi.org/10.1109/EnT.2019.14
[2] Lin J., Keogh E., Lonardi S., Chiu B. A symbolic representation of time series, with implications for streaming algorithms. In: Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery (DMKD '03). Association for Computing Machinery, New York, NY, USA; 2003. p. 2-11. (In Eng.) DOI: https://doi.org/10.1145/882082.882086
[3] He Z., Wang X.S., Lee B.S., Ling A.C.H. Mining partial periodic correlations in time series. Knowledge and Information Systems. 2008; 15(1):31-54. (In Eng.) DOI: https://doi.org/10.1007/s10115-006-0051-5
[4] Chanda A.K., Ahmed C.F., Samiullah Md., Leung C.K.A new framework for mining weighted periodic patterns in time series databases. Expert Systems with Applications. 2017; 79(C):207-224. (In Eng.) DOI: https://doi.org/10.1016/j.eswa.2017.2.28
[5] Yang K.-J., Hong T.-P., Lan G.-C., Chen Y.-M. A two-phase approach for mining weighted partial periodic patterns. Engineering Applications of Artificial Intelligence. 2014; 30:225-234. (In Eng.) DOI: https://doi.org/10.1016/j.engappai.2014.1.4
[6] He R., Yang S., Yang J., Cao J. Automated Mining of Approximate Periodicity on Numeric Data: A Statistical Approach. In: Proceedings of the 2nd International Conference on Compute and Data Analysis (ICCDA 2018). ACM, New York, NY, USA; 2018. p. 20-27. (In Eng.) DOI: https://doi.org/10.1145/3193077.3194509
[7] Patel M., Modi N. A Comprehensive Study on Periodicity Mining Algorithms. In: 2016 International Conference on Global Trends in Signal Processing, Information Computing and Communication (ICGTSPICC). Jalgaon; 2016. p. 567-575. (In Eng.) DOI: https://doi.org/10.1109/ICGTSPICC.2016.7955365
[8] Aydin B., Angryk R. Spatiotemporal Frequent Pattern Mining on Solar Data: Current Algorithms and Future Directions. In: 2015 IEEE International Conference on Data Mining Workshop (ICDMW). Atlantic City, NJ; 2015. p. 575-581. (In Eng.) DOI: https://doi.org/10.1109/ICDMW.2015.10
[9] Dong S., Liu S., Zhao Y., Shao Z. An Innovative Model to Mine Asynchronous Periodic Pattern of Moving Objects. Multimedia Tools and Applications. 2019; 78(7):8943-8964. (In Eng.) DOI: https://doi.org/10.1007/s11042-018-6752-4
[10] Bjørnstad O.N., Viboud C. Timing and Periodicity of Influenza Epidemics. Proceedings of the National Academy of Sciences. 2016; 113(46):12899-12901. (In Eng.) DOI: https://doi.org/10.1073/pnas.1616052113
[11] Parthasarathy S., Mehta S., Srinivasan S. Robust periodicity detection algorithms. In: Proceedings of the 15th ACM international conference on Information and knowledge management (CIKM '06). Association for Computing Machinery, New York, NY, USA; 2006. p. 874-875. (In Eng.) DOI: https://doi.org/10.1145/1183614.1183774
[12] Otunba R., Lin J. APT: Approximate Period Detection in Time Series. In: Proceedings of the 26th International Conference on Software Engineering & Knowledge Engineering (SEKE). Vancouver, Canada; 2014. p. 490-494. Available at: https://ksiresearchorg.ipage.com/seke/seke14paper/seke14paper_9.pdf (accessed 15.1.2020). (In Eng.).
[13] Vlachos M., Yu P., Castelli V. On Periodicity Detection and Structural Periodic Similarity. In: Proceedings of the 2005 SIAM International Conference on Data Mining.Society for Industrial and Applied Mathematics; 2005. p. 449-460. (In Eng.) DOI: https://doi.org/10.1137/1.9,78161E+12.40
[14] Korotkov E.V., Korotkova M.A. Latent periodicity of DNA sequences from some human gene regions. DNA Sequence. 1995; 5(6):353-358. (In Eng.) DOI: https://doi.org/10.3109/10425179509020866
[15] Nesterenko A.Yu. Cycle detection algorithms and their applications. Fundamentalnaya i prikladnaya matematika = Fundamental and Applied Mathematics. 2010; 16(6):109-122. Available at: https://elibrary.ru/item.asp?id=20285258 (accessed 15.1.2020). (In Russ., abstract in Eng.).
[ 16] Elfeky M.G., Aref W.G., Elmagarmid A.K. WARP: time warping for periodicity detection. In: Fifth IEEE International Conference on Data Mining (ICDM'05). Houston, TX; 2005. p.8. (In Eng.) DOI: https://doi.org/10.1109/ICDM.2005.152
[17] Elfeky M.G., Aref W.G., Elmagarmid A.K. Periodicity detection in time series databases. IEEE Transactions on Knowledge and Data Engineering. 2005; 17(7):875-887. (In Eng.) DOI: https://doi.org/10.1109/TKDE.2005.114
[18] Rasheed F., Alhajj R. STNR: A suffix tree based noise resilient algorithm for periodicity detection in time series databases. Applied Intelligence. 2010; 32(3):267-278. (In Eng.) DOI: https://doi.org/10.1007/s10489-008-0144-9
[19] Ukkonen E. On-line construction of suffix trees. Algorithmica. 1995; 14(3):249-260. (In Eng.) DOI: https://doi.org/10.1007/BF01206331
[20] Korotkov E.V., Korotkova M.A. Developing New Mathematical Method for Search of the Time Series Periodicity with Deletions and Insertions. Journal of Physics: Conference Series. 2017; 788(1):012019. (In Eng.) DOI: https://doi.org/10.1088/1742-6596/788/1/012019
[21] Frenkel F.E., Korotkova M.A., Korotkov E.V. Database of Periodic DNA Regions in Major Genomes. BioMed Research International. 2017; 2017:7949287. (In Eng.) DOI: https://doi.org/10.1155/2017/7949287
[22] Chaley M.B., Korotkov E.V., Skryabin K.G. Method Revealing Latent Periodicity of the Nucleotide Sequences Modified for a Case of Small Samples. DNA Research. 1999; 6(3):153-163. (In Eng.) DOI: https://doi.org/10.1093/dnares/6.3.153
[23] Zhukova G.N., Smetanin Yu.G., Ulyanov M.V. Comparison of Some Algorithms for Periodicity Detection in Symbolic Sequences in the Presence of Distortions. Sovremennye informacionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2019; 15(4):905-915. (In Russ., abstract in Eng.) DOI: https://doi.org/10.25559/SITITO.15.201904.905-915
[24] Smetanin Y.G., Ulyanov M.V., Pestova A.S. Entropy Approach to the Construction of a Measure of Word Symbolic Diverseness and its Application to Clustering of Plant Genomes. Mathematical Biology and Bioinformatics. 2016; 11(1):114-126. (In Russ., abstract in Eng.) DOI: https://doi.org/10.17537/2016.11.114
[25] Zhukova G.N., Smetanin Yu.G., Ulyanov M.V. A Stochastic Model of Noises for Periodic Symbol Sequences. Sovremennye informacionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2019; 15(2):431-440. (In Russ., abstract in Eng.) DOI: https://doi.org/10.25559/SITITO.15.201902.431-440
Опубликована
2020-05-25
Как цитировать
ZHUKOVA, Galina Nikolaevna et al. Метод определения периода зашумленной периодической символьной последовательности, основанный на позициях подслов в последовательности. Современные информационные технологии и ИТ-образование, [S.l.], v. 16, n. 1, p. 23-32, may 2020. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/613>. Дата доступа: 24 apr. 2024 doi: https://doi.org/10.25559/SITITO.16.202001.23-32.
Раздел
Теоретические вопросы информатики, прикладной математики, компьютерных наук

Наиболее читаемые статьи этого автора (авторов)