Оптимизация инструкций широкого доступа в память в архитектуре AArch64

Аннотация

Процессоры с архитектурой ARM все чаще применяются в облачных и высокопроизводительных вычислениях, для которых важно использовать аппаратные ресурсы наиболее эффективным образом, в связи с чем возрастает роль компиляторов и оптимизаций кода. На производительность выполнения программы существенное влияние оказывают операции с памятью. В наборе команд AArch64 имеются инструкции, позволяющие выполнять доступ в память к нескольким последовательным значениям (LDP, LDPSW, STP), они используются в локальных оптимизациях компиляторов для замены двух последовательных операций доступа в память. В этой работе продемонстрировано, что такая замена может быть неэффективной, если целью оптимизации не является уменьшение объема кода. Предложен алгоритм оптимизации, выполняющей поиск и замену двумя операциями чтения тех инструкций LDP (LDPSW), часть данных для которых может быть получена из очереди на запись в память. Оценка производительности показывает эффективность оптимизации, значительное ускорение получено на тестах rapidjson (5% при запуске на одном ядре и 3% при запуске на всех ядрах), tpcc (16% на одном ядре) и tpch (2% на всех ядрах).

Сведения об авторах

Viacheslav Victorovich Chernonog, ООО "Техкомпания Хуавэй"

сотрудник

Emin Arifovich Gadzhiev, ООО "Коулмэн Сервисиз"

сотрудник

Andrey Dmitrievich Dobrov, ООО "Техкомпания Хуавэй"

сотрудник, кандидат технических наук

Литература

1. Schmitt N., Bucek J., Beckett J., Cragin A., Lange K.-D., Kounev S. Performance, Power, and Energy-Efficiency Impact Analysis of Compiler Optimizations on the SPEC CPU 2017 Benchmark Suite. In: 2020 IEEE/ACM 13th International Conference on Utility and Cloud Computing (UCC). Leicester, UK: IEEE Computer Society; 2020. p. 292-301. https://doi.org/10.1109/UCC48980.2020.00047
2. Lebeck A.R., Wood D.A. Cache profiling and the SPEC benchmarks: a case study. Computer. 1994;27(10):15-26. https://doi.org/10.1109/2.318580
3. Jain R., Cheng S., Kalagi V., Sanghavi V., Kaul S., Arunachalam M., Maeng K., Jog A., Sivasubramaniam A., Kandemir M.T., Das C.R. Optimizing CPU Performance for Recommendation Systems At-Scale. In: Proceedings of the 50th Annual International Symposium on Computer Architecture (ISCA '23). New York, NY, USA: Association for Computing Machinery; 2023. Article number: 77. https://doi.org/10.1145/3579371.3589112
4. Kelefouras V., Djemame K. A methodology for efficient code optimizations and memory management. In: Proceedings of the 15th ACM International Conference on Computing Frontiers (CF '18). New York, NY, USA: Association for Computing Machinery; 2018. p. 105-112. https://doi.org/10.1145/3203217.3203274
5. Mitra G., Johnston B., Rendell A.P., McCreath E., Zhou J. Use of SIMD Vector Operations to Accelerate Application Code Performance on Low-Powered ARM and Intel Platforms. In: 2013 IEEE International Symposium on Parallel & Distributed Processing, Workshops and Phd Forum. Cambridge, MA, USA: IEEE Computer Society; 2013. p. 1107-1116. https://doi.org/10.1109/IPDPSW.2013.207
6. Chhugani J., Nguyen A.D., Lee V.W., Macy W., Hagog M., Chen Y.-K., Baransi A., Kumar S., Dubey P. Efficient implementation of sorting on multi-core SIMD CPU architecture. Proceedings of the VLDB Endowment. 2008;1(2):1313-1324. https://doi.org/10.14778/1454159.1454171
7. Veras R., Popovici D.T., Low T.M., Franchetti F. Compilers, hands-off my hands-on optimizations. In: Proceedings of the 3rd Workshop on Programming Models for SIMD/Vector Processing (WPMVP '16). New York, NY, USA: Association for Computing Machinery; 2016. Article number: 4. https://doi.org/10.1145/2870650.2870654
8. Simunic T., Benini L., De Micheli G., Hans M. Source code optimization and profiling of energy consumption in embedded systems. In: Proceedings 13th International Symposium on System Synthesis. Madrid, Spain: IEEE Computer Society; 2000. p. 193-198. https://doi.org/10.1109/ISSS.2000.874049
9. Debray S.K., Evans W., Muth R. De Sutter B. Compiler techniques for code compaction. ACM Transactions on Programming Languages and Systems. 2000;22(2):378-415. https://doi.org/10.1145/349214.349233
10. Tan J., Jiao S., Chabbi M., Liu X. What every scientific programmer should know about compiler optimizations? In: Proceedings of the 34th ACM International Conference on Supercomputing (ICS '20). New York, NY, USA: IEEE Computer Society; 2020. Article number: 42. https://doi.org/10.1145/3392717.3392754
11. Plotnikov D., Melnik D., Vardanyan M., Buchatskiy R., Zhuykov R., Lee J.-H. Automatic Tuning of Compiler Optimizations and Analysis of their Impact. Procedia Computer Science. 2013;18:1312-1321. https://doi.org/10.1016/j.procs.2013.05.298
12. Pan Z., Eigenmann R. Fast and effective orchestration of compiler optimizations for automatic performance tuning. In: International Symposium on Code Generation and Optimization (CGO'06). New York, NY, USA: IEEE Computer Society; 2006. p. 12. https://doi.org/10.1109/CGO.2006.38
13. George A. An overview of RISC vs. CISC. In: Proceedings The Twenty-Second Southeastern Symposium on System Theory. Cookeville, TN, USA: IEEE Computer Society; 1990. p. 436-438. https://doi.org/10.1109/SSST.1990.138185
14. Jamil T. RISC versus CISC. IEEE Potentials. 1995;14(3):13-16. https://doi.org/10.1109/45.464688
15. Blem E., Menon J., Sankaralingam K. Power struggles: Revisiting the RISC vs. CISC debate on contemporary ARM and x86 architectures. In: 2013 IEEE 19th International Symposium on High Performance Computer Architecture (HPCA). Shenzhen, China: IEEE Computer Society; 2013. p. 1-12. https://doi.org/10.1109/HPCA.2013.6522302
16. Wiggers T. Energy-Efficient ARM64 Cluster with Cryptanalytic Applications. In: Lange T., Dunkelman O. (eds.) Progress in Cryptology – LATINCRYPT 2017. LATINCRYPT 2017. Lecture Notes in Computer Science. Vol. 11368. Cham: Springer; 2019. p. 175-188. https://doi.org/10.1007/978-3-030-25283-0_10
17. Yokoyama D., Schulze B., Borges F., et al. The survey on ARM processors for HPC. The Journal of Supercomputing. 2019;75:7003-7036. https://doi.org/10.1007/s11227-019-02911-9
18. Jiang Q., Lee Y.C., Zomaya A.Y. The Power of ARM64 in Public Clouds. In: 2020 20th IEEE/ACM International Symposium on Cluster, Cloud and Internet Computing (CCGRID). Melbourne, VIC, Australia: IEEE Computer Society; 2020. p. 459-468. https://doi.org/10.1109/CCGrid49817.2020.00-47
19. Afanasyev I., Lichmanov D. Evaluating the Performance of Kunpeng 920 Processors on Modern HPC Applications. In: Malyshkin V. (ed.) Parallel Computing Technologies. PaCT 2021. Lecture Notes in Computer Science. Vol. 12942. Cham: Springer; 2021. p. 301-321. https://doi.org/10.1007/978-3-030-86359-3_23
20. McIntosh-Smith S., Price J., Deakin T., Poenaru A. A performance analysis of the first generation of HPC-optimized Arm processors. Concurrency and Computation: Practice and Experience. 2019;31(16):e5110. https://doi.org/10.1002/cpe.5110
21. Park J., Kwon Y., Park Y., Jeon D. Microarchitecture-Aware Code Generation for Deep Learning on Single-ISA Heterogeneous Multi-Core Mobile Processors. IEEE Access. 2019;7:52371-52378. https://doi.org/10.1109/ACCESS.2019.2910559
22. Binkert N., et al. The gem5 simulator. ACM SIGARCH Computer Architecture News. 2011;39(2):1-7. https://doi.org/10.1145/2024716.2024718
23. Lowe-Power J., et al. The gem5 simulator: Version 20.0+. arXiv:2007.03152. 2020. https://doi.org/10.48550/arXiv.2007.03152
24. Xia J., Cheng C., Zhou X., Hu Y., Chun P. Kunpeng 920: The First 7-nm Chiplet-Based 64-Core ARM SoC for Cloud Services. IEEE Micro. 2021;41(5):67-75. https://doi.org/10.1109/MM.2021.3085578
25. Lu H.T, Ren X.,Zhong W.J.,et al. CPUBench: An open general computing CPU performance benchmark tool[J]. Microelectronics & Computer. 2023;40(5):75-83. https://doi.org/10.19304/J.ISSN1000-7180.2022.0469
26. Bucek J., Lange K.-D., v. Kistowski J. SPEC CPU2017: Next-Generation Compute Benchmark. In: Companion of the 2018 ACM/SPEC International Conference on Performance Engineering (ICPE '18). New York, NY, USA: Association for Computing Machinery; 2018. p. 41-42. https://doi.org/10.1145/3185768.3185771
Опубликована
2024-03-31
Как цитировать
CHERNONOG, Viacheslav Victorovich; GADZHIEV, Emin Arifovich; DOBROV, Andrey Dmitrievich. Оптимизация инструкций широкого доступа в память в архитектуре AArch64. Современные информационные технологии и ИТ-образование, [S.l.], v. 20, n. 1, mar. 2024. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1067>. Дата доступа: 03 apr. 2025
Раздел
Исследования и разработки в области новых ИТ и их приложений