Составление альтернативного текста к изображениям с использованием больших языковых моделей

Аннотация

 

В статье рассматриваются вопросы развития компетенций цифровой доступности. Целью работы является разработка и проверка подхода к составлению альтернативных текстов к изображениям с использованием больших языковых моделей (англ. Large Language Models, LLM), реализованных в чат-ботах, на основе ключевых слов и словосочетаний, характеризующих изображение. Исследование выполнялось в апреле-июне 2024 года. В качестве изображений были выбраны 12 сюжетных фотографий и логотипов, содержащих текст; в качестве инструментов – чат-боты Copilot, Gemini, YandexGPT. На основании предварительно составленных перечней ключевых слов на русском языке чат-ботам было предложено сгенерировать описания изображений, а затем сократить полученные описания до 250 и 125 знаков. Готовые текстовые альтернативы оценивали по пяти шкалам: полезность, полнота, достоверность, точность, грамотность. Для анализа данных использовали программу Microsoft Excel®, язык программирования R, статистические методы и критерии (корреляцию Пирсона, многомерные регрессии). Исследование применимости LLM для составления альтернативных текстов проведено впервые. Полученные данные свидетельствуют о высоком качестве сгенерированных текстовых описаний. По заданному набору ключевых слов и словосочетаний LLM способны оперативно составлять достаточно полные, достоверные, точные и грамотные текстовые альтернативы, применимые для людей, не имеющих возможности видеть контент. Установлены переменные, являющиеся предикторами к ухудшению качества сгенерированных альтернативных текстов, в частности: введение лимитов на длину описаний, излишняя длина описаний, использование чат-бота Gemini. В значительной доле сгенерированных описаний зарегистрированы фантазмы (избыточные элементы, содержащие недостоверную информацию, не заданную в ключевых словах), которые были классифицированы по типам: украшательства, умозрительности, псевдоэмоции, инфошум, дезинформация. Предложенный подход может быть использован в обучении и работе специалистов по цифровой доступности. Представляется перспективным продолжить исследования по применению LLM для разработки альтернативных текстов на разных языках к изображениям разных типов.

Сведения об авторах

Yekaterina Alexeyevna Kosova, Крымский федеральный университет имени В.И. Вернадского

заведующий кафедрой прикладной математики физико-технического института, кандидат педагогических наук, доцент

Kirill Igorevich Redkokosh, Крымский федеральный университет имени В.И. Вернадского

аспирант физико-технического института

Опубликована
2024-12-15
Как цитировать
KOSOVA, Yekaterina Alexeyevna; REDKOKOSH, Kirill Igorevich. Составление альтернативного текста к изображениям с использованием больших языковых моделей. Современные информационные технологии и ИТ-образование, [S.l.], v. 20, n. 4, dec. 2024. ISSN 2411-1473. Доступно на: <http://sitito.cs.msu.ru/index.php/SITITO/article/view/1122>. Дата доступа: 26 mar. 2025
Раздел
Исследования и разработки в области новых ИТ и их приложений