Оценка эффективности сверточных нейронных сетей в задаче автономного пилотирования

Аннотация

Введение. Данное исследование посвящено разработке системы автономного перемещения беспилотной тележки GreenCamel АгроМул RC2400 по территории предприятия. Ключевой задачей является создание системы машинного зрения, способной в реальном времени распознавать препятствия, такие как дорожные конусы, и предпринимать действия для их объезда.
Материалы и методы. В качестве решения для задачи детекции объектов был выбран предобученный алгоритм YOLOv11, являющийся последней версией популярного семейства детекторов объектов в реальном времени. YOLOv11 обладает улучшенной архитектурой и методами обучения, что делает его эффективным инструментом для решения широкого спектра задач компьютерного зрения. Для обучения модели использовались данные из набора Microsoft COCO, дополненные датасетом дорожных конусов из открытого источника roboflow. Из 80 классов, представленных в Microsoft COCO, были выбраны 9 наиболее релевантных для задачи, а также добавлен класс "traffic cone". В ходе обучения модель YOLOv11 продемонстрировала высокую точность и эффективность, достигнув значения MAP (среднее значение показателя средней точности по всем классам) в 91.2%, Precision (точность) - 90.1% и Recall (полнота) - 86.5%.
Результаты исследования. В результате исследования было подтверждено, что YOLOv11 является эффективным инструментом для обнаружения дорожных конусов. Полученные результаты демонстрируют возможность использования алгоритма для создания системы автономного перемещения беспилотной тележки GreenCamel АгроМул RC2400.
Обсуждение и заключение. В качестве ограничений использования алгоритма можно отметить, что: сбор и разметка данных для задач детекции являются трудоемкими процессами, требующими качественной подготовки аннотаций; проблема дисбаланса классов может возникнуть при добавлении специализированных малочисленных классов, как в случае с "traffic cone". Несмотря на эти ограничения, YOLOv11 является эффективным инструментом обнаружения объектов окружения и получения данных, которые могут быть использованы для решения других задач, например определения расстояния до объекта по его площади на изображении.

Сведения об авторах

Tatiana Vasilyevna Azarnova, Воронежский государственный университет

заведующий кафедрой математических методов исследования операций факультета прикладной математики, информатики и механики, доктор технических наук, профессор

Natalia Georgievna Asnina, Воронежский государственный технический университет

заведующий кафедрой систем управления и информационных технологий в строительстве факультета информационных технологий и компьютерной безопасности, кандидат технических наук, доцент

Mikhail Andreevich Kuprin, Воронежский государственный технический университет

аспирант кафедры систем управления и информационных технологий в строительстве факультета информационных технологий и компьютерной безопасности

Литература

1. Kiela D., et al. Supervised Multimodal Bitransformers for Classifying Images and Text. arXiv:1909.02950. 2019. https://doi.org/10.48550/arXiv.1909.02950
2. Markeev M.V. Metodika avtomatizirovannoj razmetki izobrazhenij i nahozhdeniya klyuchevyh slov [Methods of automated image markup and keyword finding]. Mezhdunarodnyj zhurnal gumanitarnyh i estestvennyh nauk = International Journal of Humanities and Natural Sciences. 2022;11-2(74):115-120. (In Russ., abstract in Eng.) https:doi.org/10.24412/2500-1000-2022-11-2-115-120
3. LeCun Y.A., Bottou L., Orr G.B., Müller KR. Efficient BackProp. In: Montavon G., Orr G.B., Müller KR. (eds.) Neural Networks: Tricks of the Trade. Lecture Notes in Computer Science. Vol. 7700. Berlin, Heidelberg: Springer; 2012. p. 9-48. https://doi.org/10.1007/978-3-642-35289-8_3
4. Diamos G., Sengupta S., Catanzaro B., Chrzanowski M., Coates, A., Elsen E., Engel J., Hannun A., Satheesh S. Persistent RNNs: Stashing recurrent weights on-chip. In: Balcan M.F., Weinberger K.Q. (eds.) Proceedings of The 33rd International Conference on Machine Learning. New York, New York, USA: PMLR; 2016. Vol. 48. p. 2024-2033. Available at: https://proceedings.mlr.press/v48/diamos16.html (accessed 26.05.2024).
5. Goyal P., Dollar P., Girshick R., Noordhuis P., Wesolowski L., Kyrola A., Tulloch A., Jia Y., He K. Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour. arXiv:1706.02677. 2017. p. 1-12. https://doi.org/10.48550/arXiv.1706.02677
6. Devarakonda A., Naumov M., Garland M. AdaBatch: Adaptive Batch Sizes for Training Deep Neural Networks. In: 6th International Conference on Learning Representations (ICLR 2018 Workshop Track). Vancouver, BC, Canada: Vancouver Convention Center; 2018. p. 1-4. Available at: https://openreview.net/forum?id=SkytjjU8G (accessed 26.05.2024).
7. Lisov A.A., Kulganatov A.Z., Panishev S.A. Using convolutional neural networks for acoustic-based emergency vehicle detection. Modern Transportation Systems and Technologies. 2023;9(1):95-107. (In Russ., abstract in Eng.) https://doi.org/10.17816/ranssyst20239195-107
8. Avilov O., Rimbert S., Popov A., Bougrain L. Deep Learning Techniques to Improve Intraoperative Awareness Detection from Electroencephalographic Signals. In: 2020 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC). Montreal, QC, Canada: IEEE Computer Society; 2020. p. 142-145. https://doi.org/10.1109/EMBC44109.2020.9176228
9. Radiuk P.M. Impact of Training Set Batch Size on the Performance of Convolutional Neural Networks for Diverse Datasets. Information Technology and Management Science. 2017;20(1):20-24. https://doi.org/10.1515/itms-2017-0003
10. Mishkin D., Sergievskiy N., Matas J. Systematic evaluation of convolution neural network advances on the Imagenet. Computer vision and image understanding. 2017;161:11-19. https://doi.org/10.1016/j.cviu.2017.05.007
11. Bagby T., Rao K., Sim K.C. Efficient Implementation of Recurrent Neural Network Transducer in Tensorflow. In: 2018 IEEE Spoken Language Technology Workshop (SLT). Athens, Greece: IEEE Computer Society; 2018. p. 506-512. https://doi.org/10.1109/SLT.2018.8639690
12. He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE Computer Society; 2016. p. 770-778. https://doi.org/10.1109/CVPR.2016.90
13. Krizhevsky A. One weird trick for parallelizing convolutional neural networks. arXiv:1404.5997v2. 2014. https://doi.org/10.48550/arXiv.1404.5997
14. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. In: 3rd International Conference on Learning Representations (ICLR 2015). arXiv:1409.1556. 2015. p. 1-15. https://doi.org/10.48550/arXiv.1409.1556
15. Takác M., Bijral A., Richtárik P., Srebro N. Mini-Batch Primal and Dual Methods for SVMs. In: Dasgupta S., McAllester D. (eds.) Proceedings of the 30th International Conference on Machine Learning (PMLR). 2013;28(3):1022-1030. Available at: https://proceedings.mlr.press/v28/takac13.html (accessed 26.05.2024).
16. Wilson D.R., Martinez T.R. The general inefficiency of batch training for gradient descent learning. Neural networks. 2003;16(10):14291451. https://doi.org/10.1016/S0893-6080(03)00138-2
17. Lin Z., Courbariaux M., Memisevic R., Bengio Y. Neural Networks with Few Multiplications. In: Bengio Y., LeCun Y. (eds.) 4th International Conference on Learning Representations, ICLR 2016. San Juan, Puerto Rico, May 2-4, 2016. Conference Track Proceedings. 2016. https://doi.org/10.48550/arXiv.1510.03009
18. Raissi M., Perdikaris P., Karniadakis G.E. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics. 2019;378:686-707. https://doi.org/10.1016/j.jcp.2018.10.045
19. Cuomo S., et al. Scientific Machine Learning Through Physics-Informed Neural Networks: Where we are and What’s Next. Journal of Scientific Computing. 2022;92(3):88. https://doi.org/10.48550/arXiv.2201.05624
20. Ulyanov S.V., Litvintseva L.V., Panfilov S.A. Design of self-organized intelligent control systems based on quantum fuzzy inference: intelligent system of systems engineering approach. In: 2005 IEEE International Conference on Systems, Man and Cybernetics, Waikoloa. HI, USA: IEEE Computer Society; 2005. Vol. 4. p. 3835-3840. https://doi.org/10.1109/ICSMC.2005.1571744
21. Liu Y., Feng S., Zhao Z., Ding E. Highly Efficient Human Action Recognition with Quantum Genetic Algorithm Optimized Support Vector Machine. arXiv:1711.09511. 2017. https://doi.org/10.48550/arXiv.1711.09511
22. Zhao C., Gao X. QDNN: deep neural networks with quantum layers. Quantum Machine Intelligence. 2021;3(1):15. https://doi.org/10.1007/s42484-021-00046-w
23. Vanchurin V. The World as a Neural Network. Entropy. 2020;22(11):1210. https://doi.org/10.3390/e22111210
24. Keysers D., Deselaers T., Gollan C., Ney H. Deformation Models for Image Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007;29(8):1422-1435. https://doi.org/10.1109/TPAMI.2007.1153
25. Cireşan D.C., Meier U., Gambardella L.M., Schmidhuber J. Deep, Big, Simple Neural Nets for Handwritten Digit Recognition. Neural Computation. 2010;22(12):3207-3220. https://doi.org/10.1162/NECO_a_00052
Опубликована
2024-10-15
Как цитировать
AZARNOVA, Tatiana Vasilyevna; ASNINA, Natalia Georgievna; KUPRIN, Mikhail Andreevich. Оценка эффективности сверточных нейронных сетей в задаче автономного пилотирования. Современные информационные технологии и ИТ-образование, [S.l.], v. 20, n. 3, p. 638-644, oct. 2024. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1152>. Дата доступа: 19 feb. 2026 doi: https://doi.org/10.25559/SITITO.020.202403.638-644.
Раздел
Когнитивные информационные технологии в системах управления