TY - JOUR AU - Moskalenko, Alexey Anatolyevich AU - Laponina, Olga Robertovna AU - Sukhomlin, Vladimir Alexandrovich PY - 2019 TI - Разработка приложения веб-скрапинга с возможностями обхода блокировок JF - Современные информационные технологии и ИТ-образование; Том 15 № 2 (2019): Современные информационные технологии и ИТ-образование DO - 10.25559/SITITO.15.201902.413-420 KW - N2 - В данной статье рассмотрен веб-скрапинг – процесс извлечения данных со страниц веб-сайтов в интернете с помощью автоматизации обращений к веб-сайту. С развитием интернета важность веб-скрапинга возросла, и более половины интернет-трафика на веб-сайты (за исключением потокового, т.е. аудио и видео) создается автоматизированными средствами, так называемыми ботами. Статья посвящена исследованию процесса веб-скраппинга и изучению проблемы блокировки веб-скраперов в сети Интернет. Рассматриваются основные принципы и понятия процесса веб-скрапинга. Проводится обзор существующих решений для веб-скрапинга, выделяются основные достоинства и недостатки веб-скраппинга с возможностью обхода блокировок. Рассматриваются причины блокировки веб-скраперов веб-сайтами, выделены признаки, по которым веб-сайты определяют и блокируют веб-скраперы. Исследуются приемы для обхода блокировок веб-скраперов и их влияние на процесс веб-скрапинга. Предлагается программа, разработанная на языке программирования Python, которая использует приемы для обхода блокировок веб-скраперов. Программа имеет графический интерфейс, разработанный с помощью фреймворка Tkinter для создания политики веб-скраппинга. Для обхода блокировок веб-скраперов используется фреймворк с открытым исходным кодом для автоматизации действий пользователя в браузере Selenium WebDriver. Сравнительный анализ работы веб-скраперов показал, что использование созданных в работе модулей позволяет обойти блокировки веб-скрапинга. UR - http://sitito.cs.msu.ru/index.php/SITITO/article/view/533