Метод определения периода зашумленной периодической символьной последовательности, основанный на позициях подслов в последовательности

  • Galina Nikolaevna Zhukova Национальный исследовательский университет "Высшая школа экономики" http://orcid.org/0000-0003-1835-7422
  • Alexey Vladimirovich Zhukov Национальный исследовательский центр "Курчатовский институт" http://orcid.org/0000-0002-7266-467X
  • Yuri Gennadievich Smetanin Федеральный исследовательский центр "Информатика и управление" РАН http://orcid.org/0000-0003-0242-6972
  • Mikhail Vasilevich Ulyanov Институт проблем управления им. В.А. Трапезникова РАН; Московский государственный университет имени М.В. Ломоносова http://orcid.org/0000-0002-5784-9836

Аннотация

Предложен метод определения периода искаженной шумом периодической последовательности. Период почти периодической последовательности — это длина наименьшего периодически повторяющегося фрагмента, образующего соответствующую обычную периодическую последовательность. Метод может быть применен для искаженных периодических последовательностей, полученных из периодических последовательностей, состоящих из по крайней мере восьми полных периодически повторяющихся минимальных фрагментов.
В соответствующих периодических последовательностях с шумом замены, вставки и удаления некоторые периодические фрагменты могут быть искажены из-за внесения шума. Уровень шума предполагается менее 10%, это предположение позволяет использовать оператор сдвига с окном ширины 16 и наблюдать в этом окне более двух раз каждый неповрежденный фрагмент длины 16, содержащийся в исследуемой последовательности.
Метод основан на подсчете числа символов в слове между первыми символами ближайших одинаковых подслов длины 16. Для вычисления разностей между левыми позициями соседних одинаковых подслов используются только подслова, встретившиеся в рассматриваемом слове более двух раз. Все найденные разности располагаются в порядке возрастания и находятся квантиль 25% и медиана в последовательности разностей.
Вычислительный эксперимент показал, что 25% квантиль дает удовлетворительную оценку периода при уровне шума менее 5 %. Иногда метод дает достаточно хороший результат в случае шума от 5 до 10 %. Зависимость доли удовлетворительных оценок периода от уровня шума исследовалась для каждого типа шума отдельно, а также для смеси шумов всех трех типов в одинаковых пропорциях. Вычислительный эксперимент показал, что 25% квантиль дает более точную оценку периода, чем медиана. Предполагается улучшить метод таким образом, чтобы восстанавливать саму периодическую последовательность только по последовательности с шумом.

Сведения об авторах

Galina Nikolaevna Zhukova, Национальный исследовательский университет "Высшая школа экономики"

доцент Департамента программной инженерии, факультет компьютерных наук, кандидат физико-математических наук, доцент

Alexey Vladimirovich Zhukov, Национальный исследовательский центр "Курчатовский институт"

ведущий инженер-программист

Yuri Gennadievich Smetanin, Федеральный исследовательский центр "Информатика и управление" РАН

главный научный сотрудник, Вычислительный центр им. А.А. Дородницына РАН, доктор физико-математических наук

Mikhail Vasilevich Ulyanov, Институт проблем управления им. В.А. Трапезникова РАН; Московский государственный университет имени М.В. Ломоносова

ведущий научный сотрудник; профессор кафедры алгоритмических языков, факультет вычислительной математики и кибернетики, доктор технических наук, профессор

Опубликована
2020-05-25
Как цитировать
ZHUKOVA, Galina Nikolaevna et al. Метод определения периода зашумленной периодической символьной последовательности, основанный на позициях подслов в последовательности. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 16, n. 1, may 2020. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/613>. Дата доступа: 09 aug. 2020
Раздел
Теоретические вопросы информатики, прикладной математики, компьютерных наук