Улучшенный алгоритм вычисления контекстного значения слов в тексте

  • Елизавета Александровна Доренская нститут теоретической и экспериментальной физики имени А.И.Алиханова Национального исследовательского центра "Курчатовский институт" http://orcid.org/0000-0002-4249-5131
  • Юрий Алексеевич Семёнов Институт теоретической и экспериментальной физики имени А.И.Алиханова Национального исследовательского центра "Курчатовский институт" http://orcid.org/0000-0002-3855-3650

Аннотация

Рассмотрены некоторые модификации алгоритма определения контекста, опубликованного ранее [1]. Предложена усовершенствованная формула для вычисления контекста слова и документа. Для более точного расчёта контекстного значения предложено учитывать расстояния между словами W1 и W2. Такой подход важен при наличии числа W2 >1. Приводятся результаты исследования работы этих 2-х формул. Для сравнения эффективности формул были проведены расчеты для 100 текстов. По данным расчётов построены распределения, которые были сравнены с моделью, описанной в статье [1]. Проведен оптимальный выбор весовой функции ,  Сравнение вариантов проводилось по значениям отношений s/Ссред, Для всех вариантов формулы, весовой функции и ширины площадки  была рассчитана дисперсия С. Она оказалась довольно большой за счёт разного размера текстов, количества слов W2 и W3, а также их распределения по тексту. Предоставлен пример распределения расстояний между словами W2-W3 в файле для слова W2 “компьютер”.

Сведения об авторах

Елизавета Александровна Доренская, нститут теоретической и экспериментальной физики имени А.И.Алиханова Национального исследовательского центра "Курчатовский институт"

инженер-программист

Юрий Алексеевич Семёнов, Институт теоретической и экспериментальной физики имени А.И.Алиханова Национального исследовательского центра "Курчатовский институт"

кандидат физико-математических наук, ведущий научный сотрудник; заместитель заведующего кафедрой информатики и вычислительных сетей, Институт нано-, био-, информационных, когнитивных и социогуманитарных наук и технологий

Опубликована
2019-12-23
Как цитировать
ДОРЕНСКАЯ, Елизавета Александровна; СЕМЁНОВ, Юрий Алексеевич. Улучшенный алгоритм вычисления контекстного значения слов в тексте. Международный научный журнал «Современные информационные технологии и ИТ-образование», [S.l.], v. 15, n. 4, p. 935-942, dec. 2019. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/559>. Дата доступа: 27 feb. 2020 doi: https://doi.org/10.25559/SITITO.15.201904.935-942.
Раздел
Исследования и разработки в области новых ИТ и их приложений