Составление альтернативного текста к изображениям с использованием больших языковых моделей

Аннотация

Введение. В статье рассматриваются вопросы развития компетенций цифровой доступности. Целью работы является разработка и проверка подхода к составлению альтернативных текстов к изображениям с использованием больших языковых моделей (англ. Large Language Models, LLM), реализованных в чат-ботах, на основе ключевых слов и словосочетаний, характеризующих изображение.
Материалы и методы. Исследование выполнялось в апреле-июне 2024 года. В качестве изображений были выбраны 12 сюжетных фотографий и логотипов, содержащих текст; в качестве инструментов – чат-боты Copilot, Gemini, YandexGPT. На основании предварительно составленных перечней ключевых слов на русском языке чат-ботам было предложено сгенерировать описания изображений, а затем сократить полученные описания до 250 и 125 знаков. Готовые текстовые альтернативы оценивали по пяти шкалам: полезность, полнота, достоверность, точность, грамотность. Для анализа данных использовали программу Microsoft Excel®, язык программирования R, статистические методы и критерии (корреляцию Пирсона, многомерные регрессии). Исследование применимости LLM для составления альтернативных текстов проведено впервые.
Результаты исследования. Полученные данные свидетельствуют о высоком качестве сгенерированных текстовых описаний. По заданному набору ключевых слов и словосочетаний LLM способны оперативно составлять достаточно полные, достоверные, точные и грамотные текстовые альтернативы, применимые для людей, не имеющих возможности видеть контент. Установлены переменные, являющиеся предикторами к ухудшению качества сгенерированных альтернативных текстов, в частности: введение лимитов на длину описаний, излишняя длина описаний, использование чат-бота Gemini. В значительной доле сгенерированных описаний зарегистрированы фантазмы (избыточные элементы, содержащие недостоверную информацию, не заданную в ключевых словах), которые были классифицированы по типам: украшательства, умозрительности, псевдоэмоции, инфошум, дезинформация.
Обсуждение и заключение. Предложенный подход может быть использован в обучении и работе специалистов по цифровой доступности. Представляется перспективным продолжить исследования по применению LLM для разработки альтернативных текстов на разных языках к изображениям разных типов.

Сведения об авторах

Yekaterina Alexeyevna Kosova, Крымский федеральный университет имени В.И. Вернадского

заведующий кафедрой прикладной математики физико-технического института, кандидат педагогических наук, доцент

Kirill Igorevich Redkokosh, Крымский федеральный университет имени В.И. Вернадского

аспирант физико-технического института

Литература

1. Kosova Ye.A., Redkokosh K.I. Methodology for the Formation of Digital Accessibility Competences: Development and Trial on a Russian Sample. RUDN Journal of Psychology and Pedagogics. 2022;19(3):488-509. (In Russ., abstract in Eng.) https://doi.org/10.22363/2313-1683-2022-19-3-488-509
2. Hamideh Kerdar S., Bächler L., Kirchhoff B.M. The accessibility of digital technologies for people with visual impairment and blindness: a scoping review. Discover Computing. 2024;27:24. https://doi.org/10.1007/s10791-024-09460-7
3. Jung C., Mehta S., Kulkarni A., Zhao Y., Kim Y.-S. Communicating Visualizations without Visuals: Investigation of Visualization Alternative Text for People with Visual Impairments. IEEE Transactions on Visualization and Computer Graphics. 2022;28(1):1095-1105. https://doi.org/10.1109/TVCG.2021.3114846
4. Tiwary T., Mahapatra R.P. Web Accessibility Challenges for Disabled and Generation of Alt Text for Images in Websites using Artificial Intelligence. In: Proceedings of the 3rd International Conference on Issues and Challenges in Intelligent Computing Techniques (ICICT). Ghaziabad, India: IEEE Press; 2022. p. 1-5. https://doi.org/10.1109/ICICT55121.2022.10064545
5. Xie J., Li R., Lv S., Wang Y., Wang Q., Vorotnitsky Y.I. Chinese alt text writing based on deep learning. Trait Signal. 2019;36(2):161-170. https://doi.org/10.18280/ts.360206
6. Sharma H., Agrahari M., Singh S.K., Firoj M., Mishra R.K. Image Captioning: A Comprehensive Survey. In: 2020 International Conference on Power Electronics & IoT Applications in Renewable Energy and its Control (PARC). Mathura, India: IEEE Press; 2020. p. 325-328. https://doi.org/10.1109/PARC49193.2020.236619
7. Hanley M., Barocas S., Levy K., Azenkot S., Nissenbaum H. Computer Vision and Conflicting Values: Describing People with Automated Alt Text. In: Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES '21). New York, NY, USA: Association for Computing Machinery; 2021. p. 543-554. https://doi.org/10.1145/3461702.3462620
8. Lee J., Peng Y. H., Herskovitz J., Guo A. Image Explorer: Multi-Layered Touch Exploration to Make Images Accessible. In: Proceedings of the 23rd International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS '21). New York, NY, USA: Association for Computing Machinery; 2021. Article number: 69. https://doi.org/10.1145/3441852.3476548
9. Mack K., Cutrell E., Lee B., Morris M.R. Designing Tools for High-Quality Alt Text Authoring. In: Proceedings of the 23rd International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS '21). New York, NY, USA: Association for Computing Machinery; 2021. Article number: 23. https://doi.org/10.1145/3441852.3471207
10. Jeong H., Chun V., Lee H., Oh S.Y., Jung H. WATAA: Web Alternative Text Authoring Assistant for Improving Web Content Accessibility. In: Companion Proceedings of the 28th International Conference on Intelligent User Interfaces (IUI '23 Companion). New York, NY, USA: Association for Computing Machinery; 2023. p. 41-45. https://doi.org/10.1145/3581754.3584127
11. Edwards E.J., Gilbert M., Blank E., Branham S.M. How the Alt Text Gets Made: What Roles and Processes of Alt Text Creation Can Teach Us About Inclusive Imagery. ACM Transactions on Accessible Computing. 2023;16(2):1-28. https://doi.org/10.1145/3587469
12. Chintalapati S.S., Bragg J., Wang L.L. A Dataset of Alt Texts from HCI Publications: Analyses and Uses Towards Producing More Descriptive Alt Texts of Data Visualizations in Scientific Papers. In: Proceedings of the 24th International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS '22). New York, NY, USA: Association for Computing Machinery; 2022. Article number: 30. https://doi.org/10.1145/3517428.3544796
13. Williams C., de Greef L., Harris E., Findlater L., Pavel A., Bennett C. Toward supporting quality alt text in computing publications. In:Proceedings of the 19th International Web for All Conference (W4A '22). New York, NY, USA: Association for Computing Machinery; 2022. Article number: 20. https://doi.org/10.1145/3493612.3520449
14. Kosova Ye.A., Redkokosh K.I., Mikheyev P.O. Using A Neural Network to Generate Images When Teaching Students to Develop an Alternative Text. Open Education. 2024;28(1):9-20. (In Russ., abstract in Eng.) https://doi.org/10.21686/1818-4243-2024-1-9-20
15. Kaddour J.,Harris J.,Mozes M.,Bradley H.,Raileanu R.,McHardy R. Challenges and Applications of Large Language Models. arXiv:2307.10169. 2023. https://doi.org/10.48550/arXiv.2307.10169
16. Kasneci E., Sessler K., Küchemann S., Bannert M., Dementieva D., Fischer F., Gasser U., Groh G., Günnemann S., Hüllermeier E., Krusche S., Kutyniok G., Michaeli T., Nerdel C., Pfeffer J., Poquet O., Sailer M., Schmidt A., Seidel T., Stadler M., Weller J., Kuhn J., Kasneci G. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences. 2023;103(102274). https://doi.org/10.1016/j.lindif.2023.102274
17. Myers D., Mohawesh R., Chellaboina V.I., Sathvik A.L., Venkatesh P., Ho Y.-H., Henshaw H., Alhawawreh M., Berdik D., Jararweh Y. Foundation and large language models: fundamentals, challenges, opportunities, and social impacts.Cluster Computing. 2024;27:1-26. https://doi.org/10.1007/s10586-023-04203-7
18. Xiao C., Xu S.X., Zhang K., Wang Y., Xia L. Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Education Applications. In:Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023). Toronto, Canada: Association for Computational Linguistics; 2023. p. 610-625. https://doi.org/10.18653/v1/2023.bea-1.52
19. Richard B. Key Issues Affecting the Inclusion of Alt Text in Scholarly PDF Publications. Logos. 2023;34(1):44-60.https://doi.org/10.1163/18784712-03104058
20. Crane M.A., Nguyen M., Lam A., Berger Z.D., Paulus Y.M., Romley J.A., Faden R.R. Figure accessibility in journals: analysis of alt-text in 2021-23.The Lancet. 2023;402(10419):2287-2289. https://doi.org/10.1016/S0140-6736(23)02348-6
21. Alam M.Z.I., Islam Sh., Hoque E. SeeChart: Enabling Accessible Visualizations Through Interactive Natural Language Interface For People with Visual Impairments. In: Proceedings of the 28th International Conference on Intelligent User Interfaces (IUI '23). New York, NY, USA: Association for Computing Machinery; 2023. p. 46-64. https://doi.org/10.1145/3581641.3584099
22. Likert R. A technique for the measurement of attitudes. Archives of Psychology. 1932;22(140):5-55.
23. Hicks M.T., Humphries J., Slater J. ChatGPT is bullshit. Ethics and Information Technology. 2024;26:38. https://doi.org/10.1007/s10676-024-09775-5
24. Fisher S.A. Large language models and their big bullshit potential.Ethics and Information Technology. 2024;26:67. https://doi.org/10.1007/s10676-024-09802-5
25. Salisbury E., Kamar E., Morris M. Toward Scalable Social Alt Text: Conversational Crowdsourcing as a Tool for Refining Vision-to-Language Technology for the Blind. In: Proceedings of the AAAI Conference on Human Computation and Crowdsourcing. 2017;5(1):147-156. https://doi.org/10.1609/hcomp.v5i1.13301
Опубликована
2024-10-15
Как цитировать
KOSOVA, Yekaterina Alexeyevna; REDKOKOSH, Kirill Igorevich. Составление альтернативного текста к изображениям с использованием больших языковых моделей. Современные информационные технологии и ИТ-образование, [S.l.], v. 20, n. 3, p. 699-714, oct. 2024. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1122>. Дата доступа: 09 jan. 2026 doi: https://doi.org/10.25559/SITITO.020.202403.699-714.
Раздел
Исследования и разработки в области новых ИТ и их приложений