Методы сжатия пространства для скрытых диффузионных моделей
Аннотация
Диффузионные модели представляют собой семейство генеративных моделей, позволяющих получить наилучшее качество во многих областях, таких как генерация изображений, видео и аудио. Из-за итеративного характера работы диффузионных моделей их скорость в разы уступает другим методам генерации из-за чего кратно увеличивается стоимость и время обучения.
В качестве решения этой проблемы было предложено сжать рабочее пространство диффузионной модели. Используя методы сжатия пространства удается решить основные проблемы диффузионных моделей, а также получать ранее недоступное качество генерации (например, генерация изображения с разрешением 4К).
На текущий момент многие новые работы по тематике сжатия пространства направлены на работу с видео, поскольку при генерации видео в высоком разрешении по-прежнему требуется слишком большое количество ресурсов, из-за чего ограничивается максимальная длительность сгенерированного видео.
Развитие методов сжатия пространства помогает решать многие практические задачи. В работе представлен обзор методов сжатия пространства для скрытых диффузионных моделей.
Литература
2. Song Y., Ermon S. Generative modeling by estimating gradients of the data distribution. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems (NIPS '19). Article number: 1067. Red Hook, NY, USA: Curran Associates Inc.; 2019. p. 11918-11930.
3. Song Y., et al. Score-Based Generative Modeling through Stochastic Differential Equations. In: International Conference of Learning Representations (ICLR 2021). Austria; 2021. 36 p. Available at: https://openreview.net/forum?id=PxTIG12RRHS (accessed 29.01.2025).
4. Ho J., Jain A., Abbeel P. Denoising Diffusion Probabilistic Models. In: Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS '20). Article number: 574. Red Hook, NY, USA: Curran Associates Inc.; 2020. p. 6840-6851. Available at: https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html (accessed 29.01.2025).
5. Goodfellow I. et al. Generative Adversarial Networks. Communications of the ACM. 2020;63(11):139-144. https://doi.org/10.1145/3422622
6. Dhariwal P., Nichol A. Diffusion Models Beat GANs on Image Synthesis. In: Ranzato M., et al. (eds.) Advances in Neural Information Processing Systems. Vol. 34. Curran Associates, Inc.; 2021. p. 8780-879. Available at: https://papers.nips.cc/paper/2021/hash/49ad23d1ec9fa4bd8d77d02681df5cfa-Abstract.html (accessed 29.01.2025).
7. Croitoru F.-A., Hondru V., Ionescu R.T., Shah M. Diffusion Models in Vision: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023;45(9):10850-10869. https://doi.org/10.1109/TPAMI.2023.3261988
8. Yi Q., Chen X., Zhang C., Zhou Z., Zhu L., Kong X. Diffusion models in text generation: a survey. PeerJ Computer Science. 2024;10:e1905. https://doi.org/10.7717/peerj-cs.1905
9. Kameoka H., Kaneko T., Tanaka K. VoiceGrad: Non-Parallel Any-to-Many Voice Conversion With Annealed Langevin Dynamics. IEEE/ACM Trans. Audio, Speech and Lang. Proc. 2024;32:2213-2226. https://doi.org/10.1109/TASLP.2024.3379901
10. Peebles W., Xie S. Scalable Diffusion Models with Transformers. In: 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE Press; 2023. p. 4172-4182. https://doi.org/10.1109/ICCV51070.2023.00387
11. Daras G., et al. Ambient Diffusion: Learning Clean Distributions from Corrupted Data. arXiv:2305.19256. 2023. https://doi.org/10.48550/arXiv.2305.19256
12. Sauer A., et al. Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation. arXiv:2403.12015. 2024. https://doi.org/10.48550/arXiv.2403.12015
13. Rombach R., Blattmann A., Lorenz D., Esser P., Ommer B. High-Resolution Image Synthesis with Latent Diffusion Models. In: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA: IEEE Press; 2022. p. 10674-10685. https://doi.org/10.1109/CVPR52688.2022.01042
14. Karras T., Laine S., Aila T. A Style-Based Generator Architecture for Generative Adversarial Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021;43(12):4217-4228. https://doi.org/10.1109/TPAMI.2020.2970919
15. Karras T., Laine S., Aittala M., Hellsten J., Lehtinen J., Aila T. Analyzing and Improving the Image Quality of StyleGAN. In: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE Press; 2020. p. 8107-8116. https://doi.org/10.1109/CVPR42600.2020.00813
16. Kingma D.P., Welling M. Auto-Encoding Variational Bayes. arXiv:1312.6114. 2013. https://doi.org/10.48550/arXiv.1312.6114
17. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Navab N., Hornegger J., Wells W., Frangi A. (eds.) Medical Image Computing and Computer-Assisted Intervention MICCAI 2015. MICCAI 2015. Lecture Notes in Computer Science. Vol. 9351. Cham: Springer; 2015. p. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
18. Lecun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE. 1998;86(11):2278-2324. https://doi.org/10.1109/5.726791
19. Kingma D.P., Welling M. An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning. 2019;12(4):307-392. http://dx.doi.org/10.1561/2200000056
20. Pu Y., et al. Variational Autoencoder for Deep Learning of Images, Labels and Captions. In: Proceedings of the 30th International Conference on Neural Information Processing Systems (NIPS'16). Red Hook, NY, USA: Curran Associates Inc.; 2016. p. 2360-2368.
21. van den Oord A., Vinyals O., Kavukcuoglu K. Neural Discrete Representation Learning. In: Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17). Red Hook, NY, USA: Curran Associates Inc.; 2017. p. 6309-6318. Available at: https://arxiv.org/pdf/1711.00937 (accessed 29.01.2025).
22. Razavi A., van den Oord A., Vinyals O. Generating Diverse High-Fidelity Images with VQ-VAE-2. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems (NIPS'17). Red Hook, NY, USA: Curran Associates Inc.; 2019. p. 14866-14876. Available at: https://arxiv.org/pdf/1906.00446v1 (accessed 29.01.2025).
23. Zhang R., Isola P., Efros A.A., Shechtman E., Wang O. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. In; 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA; 2018. p. 586-595. https://doi.org/10.1109/CVPR.2018.00068
24. Esser P., Rombach R., Ommer B. Taming Transformers for High-Resolution Image Synthesis. In: 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA: IEEE Press; 2021. p. 12868-12878. https://doi.org/10.1109/CVPR46437.2021.01268
25. Zheng C., et al. MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation. arXiv:2209.09002. 2022. https://doi.org/10.48550/arXiv.2209.09002
26. Chen J., et al. Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models. arXiv:2410.10733. https://doi.org/10.48550/arXiv.2410.10733
27. Isola P., Zhu J.-Y., Zhou T., Efros A.A. Image-to-Image Translation with Conditional Adversarial Networks. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE Press; 2017. p. 5967-5976. https://doi.org/10.1109/CVPR.2017.632
28. Li X.L., Thickstun J., Gulrajani I., Liang P., Hashimoto T.B. Diffusion-LM improves controllable text generation. In: Proceedings of the 36th International Conference on Neural Information Processing Systems (NIPS '22). Red Hook, NY, USA: Curran Associates Inc.; 2022. Article number: 313. p. 4328-4343.
29. He Z., et al. DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Vol. 1. p. 4521-4534. Available at: https://openreview.net/pdf?id=GPbiCYiDVqr (accessed 29.01.2025).
30. Zhou K., Li Y., Zhao X., Wen J.-R. Diffusion-NAT: Self-Prompting Discrete Diffusion for Non-Autoregressive Text Generation. In: Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics. Vol. 1. St. Julian s, Malta: Association for Computational Linguistics; 2024. p. 1438-1451. Available at: https://aclanthology.org/2024.eacl-long.86.pdf (accessed 29.01.2025).
31. Sun P., et al. Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation. arXiv:2406.06525. 2024. https://doi.org/10.48550/arXiv.2406.06525
32. Deng J., Dong W., Socher R., Li L.-J., Li K., Fei-Fei L. ImageNet: A large-scale hierarchical image database. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE Press; 2009. p. 248-255. https://doi.org/10.1109/CVPR.2009.5206848

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.