Использование предобученной нейросети (VGG16) для решения задачи переноса стиля изображения

Аннотация

Задача переноса стиля изображения состоит в создании нового, ранее не существующего изображения путем комбинирования двух данных изображений – оригинального и стилевого. Оригинальное изображение формирует структуру, основные геометрические линии и формы результирующего изображения, в то время как стилевое изображение задает цвет и текстуру результата. Суть данного подхода заключается в том, что некая картинка преобразуется в новую с другим стилем, который был задан. Для решения таких задач обычно используют сверточные нейронные сети. На входе нейронной сети подаются две картинки: контент и стиль. Например, фотографию, а стилевое – картину знаменитого художника. Результирующим изображением в таком случае будет сцена, изображенная на исходной фотографии, выполненная в стилистике данной картины. Современные алгоритмы переноса стиля позволяют добиться хороших результатов, но результат работы таких алгоритмов оказывается либо неприемлемым ввиду чрезмерного искажения черт лица, либо слабо выраженным, не носящим характерные черты стилевого изображения.
В этой работе мы рассмотрим, как адаптировать предобученную модель в решение задачи классификации и переноса изображения, так как чтобы в результате было получено изображение, которое разукрасился в соответствии с исходным изображением и с высоким выраженным. Наш основной вклад – это предложение нового метода обработки и переноса стиля изображений основан на предобученной модель VGG16.

Сведения об авторе

Moutouama N’dah Bienvenu Mouale, Российский университет дружбы народов

аспирант кафедры прикладной информатики и теории вероятностей, факультет физико-математических и естественных наук

Литература

1. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. In: Bengio Y., LeCun Y. (eds.) Proceedings of the 3rd International Conference on Learning Representations (ICLR-2015). San Diego, CA, USA; 2015. p. 1-14. (In Eng.) doi: https://doi.org/10.48550/arxiv.1409.1556
2. Tao Y. Image Style Transfer Based on VGG Neural Network Model. 2022 IEEE International Conference on Advances in Electrical Engineering and Computer Applications (AEECA). IEEE Computer Society, Dalian, China; 2022. p. 1475-1482. (In Eng.) doi: https://doi.org/10.1109/AEECA55500.2022.9918891
3. Li M. -A., Xu D. -Q. A Transfer Learning Method based on VGG-16 Convolutional Neural Network for MI Classification. 2021 33rd Chinese Control and Decision Conference (CCDC). IEEE Computer Society; 2021. p. 5430-5435. (In Eng.) doi: https://doi.org/10.1109/CCDC52312.2021.9602818
4. Girshick R., Donahue J., Darrell T., Malik J. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, Columbus, OH, USA; 2014. p. 580-587. (In Eng.) doi: https://doi.org/10.1109/CVPR.2014.81
5. Li S.Z., Jain A.K. Handbook of Face Recognition. Springer, London; 2011. 2nd Ed. 699 p. (In Eng.) doi: https://doi.org/10.1007/978-0-85729-932-1
6. Erhan D., Szegedy C., Toshev A., Anguelov D. Scalable Object Detection Using Deep Neural Networks. 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, Columbus, OH, USA; 2014. p. 2155-2162. (In Eng.) doi: https://doi.org/10.1109/CVPR.2014.276
7. He K., Zhang X., Ren S., Sun J. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015; 37(9):1904-1916. (In Eng.) doi: https://doi.org/10.1109/TPAMI.2015.2389824
8. Deng J., Russakovsky O., Krause J., Bernstein M.S., Berg A., Fei-Fei L. Scalable multi-label annotation. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI'14). Association for Computing Machinery, New York, NY, USA; 2014. p. 3099-3102. (In Eng.) doi: https://doi.org/10.1145/2556288.2557011
9. Mouale M.N.B., Kozyrev D.V., Houankpo H.G.K., Nibasumba E. Development of a Neural Network Method in the Problem of Classification and Image Recognition. Sovremennye informacionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2021; 17(3):507-518. (In Russ., abstract in Eng.) doi: https://doi.org/10.25559/SITITO.17.202103.507-518
10. Russakovsky O., Deng J., Huang Z., Berg A.C., Fei-Fei L. Detecting Avocados to Zucchinis: What Have We Done, and Where Are We Going? Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV'13). IEEE Computer Society, USA; 2013. p. 2064-2071. (In Eng.) doi: https://doi.org/10.1109/ICCV.2013.258
11. Su H., Deng J., Fei-Fei L. Crowdsourcing Annotations for Visual Object Detection. AAAI Human Computation Workshop. AAAI Press, Palo Alto, California; 2012. p. 1-7. Available at: http://vision.stanford.edu/pdf/bbox_submission.pdf (accessed 14.05.2022). (In Eng.)
12. Deng J., Dong W., Socher R., Li L.-J., Kai Li, Fei-Fei L. ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society; 2009. p. 248-255. (In Eng.) doi: https://doi.org/10.1109/CVPR.2009.5206848
13. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks. Communications of the ACM. 2017; 60(6):84-90. (In Eng.) doi: https://doi.org/10.1145/3065386
14. Mäenpää T. The Local Binary Pattern Approach to Texture Analysis: Extensions and Applications. Acta Universitatis Ouluensis: Series C, Technica. 2003; 187:1-75. (In Eng.)
15. Rothe R., Guillaumin M., Van Gool L. Non-maximum Suppression for Object Detection by Passing Messages Between Windows. In: Cremers D., Reid I., Saito H., Yang M.H. (eds.) Computer Vision – ACCV 2014. ACCV 2014. Lecture Notes in Computer Science. Vol. 9003. Springer, Cham; 2015. p. 290-306. (In Eng.) doi: https://doi.org/10.1007/978-3-319-16865-4_19
16. Shan C., Gong S., McOwan P.W. Facial expression recognition based on Local Binary Patterns: A comprehensive study. Image and Vision Computing. 2009; 27(6):803-816. (In Eng.) doi: https://doi.org/10.1016/j.imavis.2008.08.005
17. Maturana D., Mery D., Soto Á. Face Recognition with Local Binary Patterns, Spatial Pyramid Histograms and Naive Bayes Nearest Neighbor Classification. 2009 International Conference of the Chilean Computer Science Society. IEEE Computer Society, Santiago, Chile; 2009. p. 125-132. (In Eng.) doi: https://doi.org/10.1109/SCCC.2009.21
18. Visani M., Garcia C., Jolion J.M. Bilinear Discriminant Analysis for Face Recognition. In: Singh S., Singh M., Apte C., Perner P. Pattern Recognition and Image Analysis. ICAPR 2005. Lecture Notes in Computer Science. Vol. 3687. Springer, Berlin, Heidelberg; 2005. p. 247-256. (In Eng.) doi: https://doi.org/10.1007/11552499_28
19. Chen D., Cao L. Face recognition based on multi-module singular value features and probabilistic subspaces analysis. 2011 4th International Congress on Image and Signal Processing. IEEE Computer Society, Shanghai, China; 2011. p. 1508-1512. (In Eng.) doi: https://doi.org/10.1109/CISP.2011.6100445
20. Alizadeh F., Nalousi S., Savari C. Face Detection in Color Images using Color Features of Skin. International Journal of Computer and Information Engineering. 2011; 5(4):366-372. (In Eng.) doi: https://doi.org/10.5281/zenodo.1063276
21. Xu L.S., Meng M.Q.-H., Wang K.Q. Pulse Image Recognition Using Fuzzy Neural Network. 2007 29th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Computer Society, Lyon, France; 2007. p. 3148-3151. (In Eng.) doi: https://doi.org/10.1109/IEMBS.2007.4352997
22. Lou G., Shi H. Face image recognition based on convolutional neural network. China Communications. 2020; 17(2):117-124. (In Eng.) doi: https://doi.org/10.23919/JCC.2020.02.010
23. Houankpo H.G.K., Kozyrev D.V., Nibasumba E., Mouale M.N.B., Sergeeva I.A. A Simulation Approach to Reliability Assessment of a Redundant System with Arbitrary Input Distributions. In: Vishnevskiy V.M., Samouylov K.E., Kozyrev D.V. Distributed Computer and Communication Networks. DCCN 2020. Lecture Notes in Computer Science. Vol. 12563. Springer, Cham; 2020. p. 380-392. (In Eng.) doi: https://doi.org/10.1007/978-3-030-66471-8_29
24. Arulogun O.T., Omidiora E.O., Olaniyi O.M., Ipadeola A.A. Development of Security System using Facial Recognition. The Pacific Journal of Science and Technology. 2008; 9(2):377-385. (In Eng.)
25. Panetto H., Cecil J. Information systems for enterprise integration, interoperability and networking: theory and applications. Enterprise Information Systems. 2013; 7(1):1-6. (In Eng.) doi: https://doi.org/10.1080/17517575.2012.684802
Опубликована
2022-07-20
Как цитировать
MOUALE, Moutouama N’dah Bienvenu. Использование предобученной нейросети (VGG16) для решения задачи переноса стиля изображения. Современные информационные технологии и ИТ-образование, [S.l.], v. 18, n. 2, p. 241-248, july 2022. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/854>. Дата доступа: 27 apr. 2024 doi: https://doi.org/10.25559/SITITO.18.202202.241-248.
Раздел
Теоретические вопросы информатики, прикладной математики, компьютерных наук

Наиболее читаемые статьи этого автора (авторов)