Составление альтернативного текста к изображениям с использованием больших языковых моделей
Аннотация
В статье рассматриваются вопросы развития компетенций цифровой доступности. Целью работы является разработка и проверка подхода к составлению альтернативных текстов к изображениям с использованием больших языковых моделей (англ. Large Language Models, LLM), реализованных в чат-ботах, на основе ключевых слов и словосочетаний, характеризующих изображение. Исследование выполнялось в апреле-июне 2024 года. В качестве изображений были выбраны 12 сюжетных фотографий и логотипов, содержащих текст; в качестве инструментов – чат-боты Copilot, Gemini, YandexGPT. На основании предварительно составленных перечней ключевых слов на русском языке чат-ботам было предложено сгенерировать описания изображений, а затем сократить полученные описания до 250 и 125 знаков. Готовые текстовые альтернативы оценивали по пяти шкалам: полезность, полнота, достоверность, точность, грамотность. Для анализа данных использовали программу Microsoft Excel®, язык программирования R, статистические методы и критерии (корреляцию Пирсона, многомерные регрессии). Исследование применимости LLM для составления альтернативных текстов проведено впервые. Полученные данные свидетельствуют о высоком качестве сгенерированных текстовых описаний. По заданному набору ключевых слов и словосочетаний LLM способны оперативно составлять достаточно полные, достоверные, точные и грамотные текстовые альтернативы, применимые для людей, не имеющих возможности видеть контент. Установлены переменные, являющиеся предикторами к ухудшению качества сгенерированных альтернативных текстов, в частности: введение лимитов на длину описаний, излишняя длина описаний, использование чат-бота Gemini. В значительной доле сгенерированных описаний зарегистрированы фантазмы (избыточные элементы, содержащие недостоверную информацию, не заданную в ключевых словах), которые были классифицированы по типам: украшательства, умозрительности, псевдоэмоции, инфошум, дезинформация. Предложенный подход может быть использован в обучении и работе специалистов по цифровой доступности. Представляется перспективным продолжить исследования по применению LLM для разработки альтернативных текстов на разных языках к изображениям разных типов.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.