Распознавание персональных данных с помощью модели глубокого обучения
Аннотация
Защита персональных данных является актуальной проблемой в современном мире, поскольку люди оставляют следы своей активности в социальных сетях и других цифровых платформах. Эти данные могут быть использованы злоумышленниками для кражи личной информации и мошенничества. Поэтому важно разрабатывать методы защиты персональных данных. Однако, распознавание персональных данных для их защиты является сложной задачей, так как существует множество различных атрибутов персональных данных, например, фамилии и номера телефонов, эти данные могут быть представлены в разных форматах, например, в виде таблиц или неструктурированных текстов. Для решения этой задачи используются различные методы распознавания персональных данных, наиболее распространённый из которых – алгоритмы на основе правил. Они позволяют определить, какие данные являются персональными, основываясь на заранее определенных правилах, таких как регулярные выражения и словари. Однако, такие алгоритмы могут быть недостаточно гибкими и не всегда способны обрабатывать сложные случаи. Другой метод заключается в использовании моделей глубокого обучения, которые обучаются на больших объёмах данных и могут лучше адаптироваться к различным данным. В рамках данной работы реализованы модели глубокого обучения с различной архитектурой нейросетей и проведено их сравнение с алгоритмами на основе правил. Также проведено исследование возможности использования большой языковой модели для распознавания персональных данных. В результате проведённого исследования реализован метод распознавания персональных данных, сочетающий в себе языковую модель искусственного интеллекта и алгоритмы на основе правил и способный распознавать персональные данные как в структурированной, так и в неструктурированной информации. Данная работа демонстрирует необходимость в защите персональных данных и возможность использования моделей искусственного интеллекта для решения этой задачи.
![Лицензия Creative Commons](http://i.creativecommons.org/l/by/4.0/88x31.png)
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.