Оптимизация гиперпараметров сверточной нейронной сети, используемой при построении двумерных карт местности
Аннотация
Рассматривается задача определения гиперпараметров нейронной сети в контексте построения двумерной карты местности. Целью работы является анализ существующих методов оптимизации гиперпараметров, а также разработка улучшенного подхода к определению гиперпараметров на основе достоинств и недостатков существующих методов. В качестве гиперпараметров рассматриваются скорость обучения, коэффициент регуляризации, размер мини-батча, вероятность дропаута, сдвиг и растяжение, применяемые в пакетной нормализации. Среди существующих методов подбора гиперпараметров были рассмотрены случайный поиск, поиск по сетке (вариация параметров), Байесовская оптимизация, эволюционная оптимизация, оптимизация на основе градиентов и спектральный метод. На основе исследуемых методов был предложен подход, который увеличивает производительность и качество работы алгоритма.
Целевая функция оптимизируется в области, описываемой простыми ограничениями на нижнюю и верхнюю границу, гиперпрямоугольник, а переменные решения ограничены целочисленными значениями. Алгоритм основывается на исходной модели целевой функции, а затем выбирает новые точки для оценки, пытаясь сбалансировать исследование неизвестных значений и уже найденных. Одноцелевая задача оптимизации для выбора новой точки решается простым генетическим алгоритмом. Критерием остановки является максимально допустимое число оценок или установленный временной порог. Оценка целевой функции реализуется с помощью очереди задач.
Применение метода оптимизации без производных позволяет сократить вычислительные потери за счет оптимизации целевой функции в области, описываемой простыми ограничениями на нижнюю и верхнюю границу. При этом точность алгоритма оказывается выше, чем при использовании случайного поиска, байесовской и спектральной оптимизации.
Литература
[2] Hutter F., Hoos H.H., Leyton-Brown K. Sequential Model-Based Optimization for General Algorithm Configuration. In: Coello C.A.C. (ed.) Learning and Intelligent Optimization. LION 2011. Lecture Notes in Computer Science. 2011; 6683:507-523. Springer, Berlin, Heidelberg. (In Eng.) DOI: https://doi.org/10.1007/978-3-642-25566-3_40
[3] Thornton C., Hutter F., Hoos H.H., Leyton-Brown K. Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. In: Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD'13). Association for Computing Machinery, New York, NY, USA; 2013. p. 847-855. (In Eng.) DOI: https://doi.org/10.1145/2487575.2487629
[4] Claesen M., De Moor B. Hyperparameter Search in Machine Learning. arXiv:1502.02127. 2015. (In Eng.)
[5] Larsen J., Hansen L.K., Svarer S., Ohlsson M. Design and regularization of neural networks: the optimal use of a validation set. In: Neural Networks for Signal Processing VI. Proceedings of the 1996 IEEE Signal Processing Society Workshop, Kyoto, Japan; 1996. p. 62-71. (In Eng.) DOI: https://doi.org/10.1109/NNSP.1996.548336
[6] Bergstra J., Bardenet R., Bengio Y., Kégl B. Algorithms for hyper-parameter optimization. In: Proceedings of the 24th International Conference on Neural Information Processing Systems (NIPS'11). Curran Associates Inc., Red Hook, NY, USA; 2011. p. 2546-2554. (In Eng.)
[7] Hazan E., Klivans A., Yuan Y. Hyperparameter Optimization: A Spectral Approach. arXiv:1706.00764. 2018. (In Eng.)
[8] Feurer M., Springenberg J.T., Hutter F. Initializing bayesian hyperparameter optimization via meta-learning. In: Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence (AAAI'15). AAAI Press; 2015. p. 1128-1135. (In Eng.)
[9] Mendoza H., Klein A., Feurer M., Springenberg J.T., Urban M., Burkart M. Towards Automatically-Tuned Deep Neural Networks. In: Hutter F., Kotthoff L., Vanschoren J. (ed.) Automated Machine Learning. The Springer Series on Challenges in Machine Learning. Springer, Cham; 2019. p. 135-149. (In Eng.) DOI: https://doi.org/10.1007/978-3-030-05318-5_7
[10] Olson R.S., Bartley N., Urbanowicz R.J., Moore J.H. Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science. In: Proceedings of the Genetic and Evolutionary Computation Conference 2016 (GECCO'16). Association for Computing Machinery, New York, NY, USA; 2016. p. 485-492. (In Eng.) DOI: https://doi.org/10.1145/2908812.2908918
[11] Feurer M., Klein A., Eggensperger K., Springenberg J.T., Blum M., Hutter F. Efficient and Robust Automated Machine Learning. In: Cortes C., Lawrence N., Lee D., Sugiyama M., Garnett R. Advances in Neural Information Processing Systems. 2015; 28:2962-2970. Curran Associates, Inc. Available at: https://proceedings.neurips.cc/paper/2015/file/11d0e6287202fced83f79975ec59a3a6-Paper.pdf (accessed 14.07.2020). (In Eng.)
[12] Conn A.R., Scheinberg K., Vicente L.N. Introduction to Derivative-Free Optimization. Society for Industrial and Applied Mathematics; 2009. (In Eng.) DOI: https://doi.org/10.1137/1.9780898718768
[13] Gutmann H.-M. A Radial Basis Function Method for Global Optimization. Journal of Global Optimization. 2001; 19(3):201-227. (In Eng.) DOI: https://doi.org/10.1023/A:1011255519438
[14] Burkov E., Lempitsky V. Deep neural networks with box convolutions. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems (NIPS'18). Curran Associates Inc., Red Hook, NY, USA; 2018. p. 6214-6224. (In Eng.)
[15] Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA; 2015. p. 3431-3440. (In Eng.) DOI: https://doi.org/10.1109/CVPR.2015.7298965
[16] Yu F., Koltun V. Multi-Scale Context Aggregation by Dilated Convolutions. arXiv:1511.07122. 2016. (In Eng.)
[17] Chen L., Papandreou G., Kokkinos I., Murphy K., Yuille A.L. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2018; 40(4):834-848. (In Eng.) DOI: https://doi.org/10.1109/TPAMI.2017.2699184
[18] Jégou S., Drozdzal M., Vazquez D., Romero A., Bengio Y. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, HI; 2017. p. 1175-1183. (In Eng.) DOI: https://doi.org/10.1109/CVPRW.2017.156
[19] Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Navab N., Hornegger J., Wells W., Frangi A. (ed.) Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. MICCAI 2015. Lecture Notes in Computer Science. 2015; 9351:234-241. Springer, Cham. (In Eng.) DOI: https://doi.org/10.1007/978-3-319-24574-4_28
[20] Badrinarayanan V., Kendall A., Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017; 39(12):2481-2495. (In Eng.) DOI: https://doi.org/10.1109/TPAMI.2016.2644615
[21] Paszke A., Chaurasia A., Kim S., Culurciello E. ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation. arXiv:1606.02147. 2016. (In Eng.)
[22] Akinina A.V., Nikiforov M.B., Savin A.V. Multiscale image segmentation using normalized cuts in image recognition on satellite images. In: 2018 7th Mediterranean Conference on Embedded Computing (MECO). Budva, 2018. p. 1-3. (In Eng.) DOI: https://doi.org/10.1109/MECO.2018.8406066
[23] Akinin M.V., Akinina A.V., Sokolov A.V., Tarasov A.S. Application of EM algorithm in problems of pattern recognition on satellite images. In: 2017 6th Mediterranean Conference on Embedded Computing (MECO). Bar, 2017. p. 1-4. (In Eng.) DOI: https://doi.org/10.1109/MECO.2017.7977190
[24] Nurshazlyn Mohd Aszemi, Dominic P.D.D. Hyperparameter Optimization in Convolutional Neural Network using Genetic Algorithms. International Journal of Advanced Computer Science and Applications (IJACSA). 2019; 10(6):269-278. (In Eng.) DOI: http://dx.doi.org/10.14569/IJACSA.2019.0100638
[25] Wistuba M., Schilling N., Schmidt-Thieme L. M. Hyperparameter Optimization Machines. In: 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA). Montreal, QC; 2016. p. 41-50. (In Eng.) DOI: https://doi.org/10.1109/DSAA.2016.12
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.