Бенчмаркинг возможностей больших языковых моделей в задачах тестирования на проникновение
Двумерная структура оценки на основе матрицы MITRE ATT&CK
Аннотация
Стремительное развитие больших языковых моделей (БЯМ) создало беспрецедентные возможности для автоматизации задач кибербезопасности, одновременно породив значительные риски, связанные с использованием этих технологий злоумышленниками. Организации все чаще стремятся оценить возможность безопасного и эффективного внедрения БЯМ в процессы обеспечения информационной безопасности, однако комплексный стандарт оценки способностей БЯМ в контексте тестирования на проникновение до сих пор отсутствует. В настоящей статье представлена новая двумерная система бенчмаркинга, позволяющая раздельно оценивать способности агентов на основе БЯМ к планированию и исполнению атак. Предложены два взаимодополняющих бенчмарка: CSL-Benchmark для оценки стратегического планирования на основе 846 курируемых шагов атак, полученных из реальных заданий по тестированию на проникновение, и K-Benchmark для оценки практического исполнения в реальных Docker-средах, реализующих 34 техники MITRE ATT&CK в категориях Первоначальный доступ, Закрепление и Повышение привилегий. Оба бенчмарка основаны на корпоративной матрице MITRE ATT&CK и используют оценщиков на базе БЯМ для обеспечения согласованных сигналов успеха. Проведена оценка одиннадцати современных языковых моделей, выявившая, что лучшие модели достигают 78,22% успеха в задачах планирования (Claude Sonnet 4.5) и 76,47% в задачах исполнения (GPT-5, Qwen 3 Max). Анализ идентифицировал критические режимы отказа, включая галлюцинации, некорректное использование инструментов, потерю контекста и нарушения области действия. Полученные результаты демонстрируют значительный потенциал БЯМ для автоматизации тестирования на проникновение при сохранении их непригодности для полностью автономного развертывания.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Редакционная политика журнала основывается на традиционных этических принципах российской научной периодики и строится с учетом этических норм работы редакторов и издателей, закрепленных в Кодексе поведения и руководящих принципах наилучшей практики для редактора журнала (Code of Conduct and Best Practice Guidelines for Journal Editors) и Кодексе поведения для издателя журнала (Code of Conduct for Journal Publishers), разработанных Комитетом по публикационной этике - Committee on Publication Ethics (COPE). В процессе издательской деятельности редколлегия журнала руководствуется международными правилами охраны авторского права, нормами действующего законодательства РФ, международными издательскими стандартами и обязательной ссылке на первоисточник.
Журнал позволяет авторам сохранять авторское право без ограничений. Журнал позволяет авторам сохранить права на публикацию без ограничений.
Издательская политика в области авторского права и архивирования определяются «зеленым цветом» в базе данных SHERPA/RoMEO.
Все статьи распространяются на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная, которая позволяет другим использовать, распространять, дополнять эту работу с обязательной ссылкой на оригинальную работу и публикацию в этом журналe.
