Исследование эффективности трансферного обучения при проведении состязательных атак

Denis Igorevich Parfenov; Irina Pavlovna Bolodurina; Lyubov Sergeevna Grishina; Artur Yurievich Zhigalov; Sergey Vladimirovich Tolmachev

doi:10.25559/SITITO.18.202204.861-871

Denis Igorevich Parfenov Оренбургский государственный университет http://orcid.org/0000-0002-1146-1270
Irina Pavlovna Bolodurina Оренбургский государственный университет http://orcid.org/0000-0003-0096-2587
Lyubov Sergeevna Grishina Оренбургский государственный университет http://orcid.org/0000-0003-2752-7198
Artur Yurievich Zhigalov Оренбургский государственный университет http://orcid.org/0000-0003-3208-1629
Sergey Vladimirovich Tolmachev Оренбургский государственный университет http://orcid.org/0000-0003-2556-3267

DOI: https://doi.org/10.25559/SITITO.18.202204.861-871

Аннотация

Глубокие нейронные сети становятся всё более эффективным инструментом решения широкого спектра сложных прикладных задач, т.к. способны устанавливать закономерности в неструктурированных данных, таких как изображения, видео- и аудиоинформация. Несмотря на то, что вероятность ошибки современных моделей нейронных сетей снижается, ML-модели остаются уязвимыми к состязательным атакам. В связи с этим, вопросы обеспечения безопасности моделей машинного обучения от состязательных атак являются одними из наиболее актуальных. В рамках данной работы проведено исследование эффективности применения технологии трансферного обучения для повышения устойчивости сверточных нейронных сетей от состязательных атак. Исследование проводилось на примере задачи распознавания дорожных знаков на снимках, которая является ключевой в области автомобильных беспилотных транспортных сетей. В ходе эксперимента построена базовая модель нейронной сети для решения задачи классификации дорожных знаков и реализованы атаки на основе алгоритмов PGD и FGSM, которые снизили точность классификации примерно в 2,8 раза. Для защиты от рассмотренных атак белого ящика на нейронную сеть проведено состязательное обучение, которое повысило точность модели на 12,11%. Кроме того, для рассмотрена технология трансферного обучения, которое позволило добиться повышения надежности после состязательного обучения на 42,38% по сравнению с исходным набором данных. Полученные результаты исследования могут быть использованы при разработке защищенной интеллектуальной системы поддержки принятия решений для обнаружения на кадре с видеорегистратора области, содержащей дорожный знак, и последующей классификации выделенного сегмента изображения.

Сведения об авторах

Denis Igorevich Parfenov, Оренбургский государственный университет

начальник отдела цифровых образовательных платформ, кандидат технических наук

Irina Pavlovna Bolodurina, Оренбургский государственный университет

заведующий кафедрой прикладной математики, доктор технических наук, профессор

Lyubov Sergeevna Grishina, Оренбургский государственный университет

старший преподаватель кафедры прикладной математики

Artur Yurievich Zhigalov, Оренбургский государственный университет

ведущий программист сектора автоматизированной поддержки организации учебного процесса

Sergey Vladimirovich Tolmachev, Оренбургский государственный университет

магистрант факультета математики и информационных технологий

Литература

1. Kovalev I.A., Kosov N.A. Adverse Attacks in Neural Networks. Studencheskij vestnik = Student Herald. 2021;(20-11):36-43. Available at: https://elibrary.ru/item.asp?id=46213350 (accessed 16.10.2022). (In Russ., abstract in Eng.)
2. Kolesnichenko M.D. Vulnerability of artificial neural networks to adversarial attacks. In: Loginov Yu.Yu. ed. Proceedings of the International Scientific Conference on Actual problems of aviation and astronautics. Vol. 2. Krasnoyarsk: Reshetnev University; 2020. p. 228-229. Available at: https://elibrary.ru/item.asp?id=45617596 (accessed 16.10.2022). (In Russ., abstract in Eng.)
3. Bodunkov N.E., Arefin V.V., Kobrinets S.K. [Investigation of attack methods on convolutional neural networks]. In: Proceedings of the Sixth All-Russian scientific and practical seminar "Unmanned vehicles with artificial intelligence phenomena" (BTS-II-2021). Moscow: RAAI; 2021. p. 122-125. Available at: https://elibrary.ru/item.asp?id=48235793 (accessed 16.10.2022). (In Russ.)
4. Voinov D.M. [Investigation of the relationship between the parameters of adversarial attacks and image classification errors by neural networks]. In: Proceedings of the 76th Scientific Conference of Students and Postgraduates of the Belarusian State University. Minsk: BSU; 2019. p. 47-51. Available at: https://elibrary.ru/item.asp?id=41203721 (accessed 16.10.2022). (In Russ.)
5. Voynov D.M., Kovalev V.A. [A comparative study of white-box and black-box adversarial attacks to the deep neural networks with different architectures]. In: Kompyuternye tehnologii i analiz dannyh (CTDA’2020) : materialy II Mezhdunarodnoj nauchno-prakticheskoj konferencii, Minsk, 23-24 aprelya 2020 = Proceedings of the II International Scientific Conference on Computer Technologies and Data Analysis (CTDA’2020), Minsk, 23-24 April 2020. Minsk: BSU; 2020. p. 185-189. Available at: https://elib.bsu.by/handle/123456789/248666 (accessed 16.10.2022). (In Russ.)
6. Chertilin K.E., Ivchenko V.D. Development and transfer training of an artificial neural network for image classification. Instruments. 2022;(7):37-47. Available at: https://elibrary.ru/item.asp?id=49450885 (accessed 16.10.2022). (In Russ., abstract in Eng.)
7. Bose A.J., Aarabi P. Adversarial Attacks on Face Detectors Using Neural Net Based Constrained Optimization. In: 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). Vancouver, BC, Canada: IEEE Computer Society; 2018. p. 1-6. doi: https://doi.org/10.1109/MMSP.2018.8547128
8. Guo Ch., Sablayrolles A., Jégou H., Kiela D. Gradient-based Adversarial Attacks against Text Transformers. In: Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online and Punta Cana, Dominican Republic: Association for Computational Linguistics; 2021. p. 5747-5757. doi: https://doi.org/10.18653/v1/2021.emnlp-main.464
9. Carlini N., Wagner D. Towards evaluating the robustness of neural networks. In: 2017 IEEE Symposium on Security and Privacy (SP). San Jose, CA, USA: IEEE Computer Society; 2017. p. 39-57. doi: https://doi.org/10.1109/SP.2017.49
10. Xiao C., Li B., Zhu J.-Y., He W., Liu M., Song D. Generating adversarial examples with adversarial networks. In: Lang J. ed. Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI 2018). Stockholm, Sweden: IJCAI; 2018. p. 3905-3911. doi: https://doi.org/10.24963/ijcai.2018/543
11. Moosavi-Dezfooli S.-M., Fawzi A., Fawzi O., Frossard P. Universal Adversarial Perturbations. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE Computer Society; 2017. p. 86-94. doi: https://doi.org/10.1109/CVPR.2017.17
12. Poursaeed O., Katsman I., Gao B., Belongie S. Generative Adversarial Perturbations. In: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE Computer Society; 2018. p. 4422-4431. doi: https://doi.org/10.1109/CVPR.2018.00465
13. Irfan M.M., Ali S., Yaqoob I., Zafar N. Towards Deep Learning: A Review On Adversarial Attacks. In: 2021 International Conference on Artificial Intelligence (ICAI). Islamabad, Pakistan: IEEE Computer Society; 2021. p. 91-96. doi: https://doi.org/10.1109/ICAI52203.2021.9445247
14. Rauber J., Zimmermann R., Bethge M., Brendel W. Foolbox Native: Fast adversarial attacks to benchmark the robustness of machine learning models in PyTorch, TensorFlow, and JAX. Journal of Open Source Software. 2020;5(53):2607. doi: https://doi.org/10.21105/joss.02607
15. Madry A., Makelov A., Schmidt L., Tsipras D., Vladu A. Towards Deep Learning Models Resistant to Adversarial Attacks. In: Proceedings of the 6th International Conference on Learning Representations (ICLR 2018). Vancouver, BC, Canada: Vancouver Convention Center; 2018. p. 1-23. Available at: https://openreview.net/pdf?id=rJzIBfZAb (accessed 16.10.2022).
16. Wang K., Li F., Chen C.-M., Hassan M.M., Long J., Kumar N. Interpreting Adversarial Examples and Robustness for Deep Learning-Based Auto-Driving Systems. IEEE Transactions on Intelligent Transportation Systems. 2022;23(7):9755-9764. doi: https://doi.org/10.1109/TITS.2021.3108520
17. Mani N., Moh M., Moh T.S. Defending Deep Learning Models Against Adversarial Attacks. International Journal of Software Science and Computational Intelligence (IJSSCI). 2021;13(1):72-89. doi: http://doi.org/10.4018/IJSSCI.2021010105
18. Amirian M., Tuggener L., Chavarriaga R., Satyawan Y., Schilling F., Schwenker F., Stadelmann T. Two to Trust: AutoML for Safe Modelling and Interpretable Deep Learning for Robustness. In: Heintz F., Milano M., O'Sullivan B. (Eds.) Trustworthy AI ‒ Integrating Learning, Optimization and Reasoning. TAILOR 2020. Lecture Notes in Computer Science. Vol. 12641. Cham: Springer; 2021. p. 268-275. doi: https://doi.org/10.1007/978-3-030-73959-1_23
19. Qiu Y., Zhang J., Zhou J. Improving Gradient-based Adversarial Training for Text Classification by Contrastive Learning and Auto-Encoder. In: Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Association for Computational Linguistics; 2021. p. 1698-1707. doi: https://doi.org/10.18653/v1/2021.findings-acl.148
20. Huang X., Kwiatkowska M., Wang S., Wu M. Safety Verification of Deep Neural Networks. In: Majumdar R., Kunčak V. (Eds.) Computer Aided Verification. CAV 2017. Lecture Notes in Computer Science. Vol. 10426. Cham: Springer; 2017. p. 3-29. doi: https://doi.org/10.1007/978-3-319-63387-9_1
21. Papernot N., McDaniel P., Wu X., Jha S., Swami A. Distillation as a Defense to Adversarial Perturbations Against Deep Neural Networks. In: 2016 IEEE Symposium on Security and Privacy (SP). San Jose, CA, USA: IEEE Computer Society; 2016. p. 582-597. doi: https://doi.org/10.1109/SP.2016.41
22. Wong E., Kolter Z. Provable Defenses against Adversarial Examples via the Convex Outer Adversarial Polytope. In: Proceedings of the 35 th International Conference on Machine Learning (PMLR). Vol. 80. Stockholm, Sweden; 2018. p. 5286-5295. Available at: https://proceedings.mlr.press/v80/wong18a.html (accessed 16.10.2022).
23. Houben S., Stallkamp J., Salmen J., Schlipsing M., Igel C. Detection of traffic signs in real-world images: The German traffic sign detection benchmark. In: The 2013 International Joint Conference on Neural Networks (IJCNN). Dallas, TX, USA: IEEE Computer Society; 2013. p. 1-8. doi: https://doi.org/10.1109/IJCNN.2013.6706807
24. Shakhuro V.I., Konushin A.S. Russian traffic sign images dataset. Computer Optics. 2016;40(2):294-300. (In Russ., abstract in Eng.) doi: https://doi.org/10.18287/2412-6179-2016-40-2-294-300
25. Chiang P.Y., et. al. Witchcraft: Efficient PGD Attacks with Random Step Size. In: ICASSP 2020 ‒ 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain: IEEE Computer Society; 2020. p. 3747-3751. doi: https://doi.org/10.1109/ICASSP40776.2020.9052930
26. Xu J., Cai Z., Shen W. Using FGSM Targeted Attack to Improve the Transferability of Adversarial Example. In: 2019 IEEE 2nd International Conference on Electronics and Communication Engineering (ICECE). Xi'an, China: IEEE Computer Society; 2019. p. 20-25. doi: https://doi.org/10.1109/ICECE48499.2019.9058535

Исследование эффективности трансферного обучения при проведении состязательных атак

Аннотация

Сведения об авторах

Литература

Наиболее читаемые статьи этого автора (авторов)