Распознавание персональных данных с помощью модели глубокого обучения
Аннотация
Защита персональных данных является актуальной проблемой в современном мире, поскольку люди оставляют следы своей активности в социальных сетях и других цифровых платформах. Эти данные могут быть использованы злоумышленниками для кражи личной информации и мошенничества. Поэтому важно разрабатывать методы защиты персональных данных. Однако, распознавание персональных данных для их защиты является сложной задачей, так как существует множество различных атрибутов персональных данных, например, фамилии и номера телефонов, эти данные могут быть представлены в разных форматах, например, в виде таблиц или неструктурированных текстов. Для решения этой задачи используются различные методы распознавания персональных данных, наиболее распространённый из которых – алгоритмы на основе правил. Они позволяют определить, какие данные являются персональными, основываясь на заранее определенных правилах, таких как регулярные выражения и словари. Однако, такие алгоритмы могут быть недостаточно гибкими и не всегда способны обрабатывать сложные случаи. Другой метод заключается в использовании моделей глубокого обучения, которые обучаются на больших объёмах данных и могут лучше адаптироваться к различным данным. В рамках данной работы реализованы модели глубокого обучения с различной архитектурой нейросетей и проведено их сравнение с алгоритмами на основе правил. Также проведено исследование возможности использования большой языковой модели для распознавания персональных данных. В результате проведённого исследования реализован метод распознавания персональных данных, сочетающий в себе языковую модель искусственного интеллекта и алгоритмы на основе правил и способный распознавать персональные данные как в структурированной, так и в неструктурированной информации. Данная работа демонстрирует необходимость в защите персональных данных и возможность использования моделей искусственного интеллекта для решения этой задачи.
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.