Генеративный ИИ: новая эра информационной безопасности
- Джимшер Челидзе
- 9 июл.
- 8 мин. чтения
Содержание
Введение
Почему старые подходы не работают: порочный круг запретов и уязвимостей
Взгляд на ключевые угрозы генеративного ИИ (по мотивам OWASP Top 10 for LLM)
Цели атак с использованием ГенИИ: зачем злоумышленникам ваши модели?
Стратегии защиты: от реактивного запрета к проактивному управлению
Заключение: ИБ в Эпоху ГенИИ – это новая дисциплина
Ресурсы для изучения
Введение
Генеративный искусственный интеллект (ГенИИ) – не просто технологический тренд; это фундаментальный сдвиг в том, как мы создаем информацию, взаимодействуем с данными и, к сожалению, как злоумышленники атакуют. Его проникновение в бизнес-процессы стало массовым и зачастую стихийным. По данным анонимных опросов в профессиональных сообществах, до 70% сотрудников уже используют публичные инструменты вроде ChatGPT, Claude или Midjourney для решения рабочих задач: от подготовки отчетов и писем до генерации кода и анализа данных. Это происходит вопреки официальным запретам или в условиях полного отсутствия внутренних регламентов, то есть фактически, это массовое и бесконтрольное внедрение технологий нового класса.
Игнорирование этого факта или попытки тотального запрета не просто неэффективны – они создают новые, более серьезные риски для информационной безопасности (ИБ).
Почему старые подходы не работают: порочный круг запретов и уязвимостей
1. Миф о контроле и реальность утечек
Запретить использование мощных и доступных публичных инструментов ГенИИ невозможно технически и контрпродуктивно организационно. Сотрудники найдут обходные пути (личные устройства, VPN), а конфиденциальная корпоративная информация (спецификации, финансовые данные, стратегические планы) будет утекать на серверы разработчиков ИИ-решений, полностью выходя из-под контроля компании. Запрет = гарантированная утечка.
2. Человеческий фактор на стероидах
Данные исследований (например, Positive Research) показывают, что до 70% успешных атак на компании – целевые (таргетированные). Злоумышленники всегда эксплуатировали человеческие слабости: доверчивость, невнимательность, спешку. Поэтому социальная инженерия используется в 50% успешных атак. И ГенИИ дает тут беспрецедентные возможности.
Гиперреалистичный фишинг: создание персонализированных писем и сообщений, идеально имитирующих стиль коллег, руководителей или партнеров, с грамматически безупречным текстом на любом языке.
Мощная социальная инженерия: анализ соцсетей и открытых данных для создания сверхубедительных сценариев манипуляции.
Генерация вредоносного кода и эксплойтов: автоматизация создания или адаптации зловредов под конкретные уязвимости (которые разработчики ИТ-решений устраняют крайне медленно – по исследованиям, только 43% уязвимостей устраняются в первый год).
При этом основные цели атак остаются прежними: шифрование данных для выкупа и кража ценной информации. Так, чаще всего целями кражи информации являются:
Персональные данные сотрудников и клиентов
Финансовая отчетность и конфиденциальные данные
Данные банковских карт
Интеллектуальная собственность (ноу-хау, патенты)
Учитывая проникновение ИИ и его использование «из-под полы» и популярность социальной инженерии, сценарии использования ИИ для этих задач не такие уж и фантастические.
3. Врожденные уязвимости самого ГенИИ
Новые технологии приносят как возможности, так и новые, специфические риски, которые нельзя игнорировать. Генеративные модели – не "черные ящики", а сложные системы с собственными слабостями.
Взгляд на ключевые угрозы генеративного ИИ (по мотивам OWASP Top 10 for LLM)
Проект OWASP, мировой стандарт в веб-безопасности, выделил главные риски для больших языковых моделей (LLM). Вот их детализация и реальные примеры
1. Манипуляция запросами (Prompt Injection) – король рисков
Суть в том, чтобы использовать специально сконструированные текстовые запросы, чтобы "обмануть" ИИ, заставить его игнорировать встроенные ограничения безопасности, раскрыть конфиденциальную информацию или выполнить несанкционированные действия.
Помимо прямого финансового ущерба, это может привести к изменению данных в системах, несанкционированному доступу, отправке компрометирующих писем от имени компании.
Пример. Крис Бакке в Калифорнии не просто "поторговался". Он промптами убедил ИИ дилерского центра GM, что он – сотрудник компании, участвующий в секретной промо-акции по продаже машин за $1 для борьбы с мошенничеством. Чат-бот, обойдя стандартные проверки, создал реальный договор купли-продажи на Chevrolet Tahoe 2024 за $1.
2. "Галлюцинации" (Hallucinations) и утечки системных данных (Sensitive Information Disclosure)
Галлюцинации: ИИ генерирует информацию, которая звучит убедительно, но является полностью вымышленной или искаженной. Это не баг, а особенность вероятностной природы моделей.
Так происходит генерация ложных индикаторов компрометации, неверных рекомендаций по реагированию на инциденты, искаженных отчетов для регуляторов.
Пример. Запрос к ИИ-помощнику по юриспруденции может дать ссылки на несуществующие судебные прецеденты или статьи закона. Решение, основанное на такой информации, может привести к судебным искам или финансовым потерям.
Утечки системных промптов и конфигураций: раскрытие внутренних инструкций, настроек безопасности, фильтров или структуры данных, используемых моделью, что дает злоумышленникам "карту" для точечного поиска уязвимостей и разработки методов обхода защиты (более изощренных prompt injection).
Громкий пример (май 2025) – утечка полного системного промпта (около 24 000 токенов) модели Claude 3.7 Sonnet (Anthropic). Злоумышленники получили доступ к:
детальным поведенческим директивам (например, стремление к нейтральности).
механизмам XML-фильтрации для структурирования ответов и безопасности.
инструкциям по использованию инструментов (веб-поиск, генерация файлов, работа с API).
протоколам защиты от "джеилбрейков" (обход ограничений).
3. Отравление данных (Training Data Poisoning)
Намеренное внесение искажений в данные, на которых обучается модель, или в данные, которыми она оперирует во время работы (через внешние источники).
Это приводит к деградации качества моделей, внедрению скрытых предубеждений или уязвимостей, компрометации систем, полагающихся на внешние данные (новостные агрегаторы, аналитические платформы).
Примеры:
Microsoft Tay: Бот, обучавшийся в реальном времени в Twitter, был быстро "воспитан" пользователями для генерации расистских, сексистских и оскорбительных высказываний. Показал уязвимость к манипуляции через входные данные.
Атака Nightshade: Инструмент незаметно для человека вносит в пиксели изображений специфические помехи. Для ИИ-модели, обученной на таких "отравленных" изображениях, собака начинает восприниматься как кошка (или наоборот). Цель – подрыв работы коммерческих моделей генерации изображений, краудсорсинговых платформ для сбора данных или внесение ошибок в системы компьютерного зрения.
4. Атаки на цепочку поставок (Supply Chain Vulnerabilities)
Компрометация сторонних компонентов, используемых при создании или работе ИИ-систем: открытые библиотеки (например, для работы с LLM), фреймворки, предобученные модели, наборы данных, платформы развертывания.
Это позволяет внедрить бэкдоры, уязвимости или отравленные данные на ранних стадиях, что делает атаку масштабной и труднообнаружимой. Особенно критично для ИИ из-за сложности и зависимости от сторонних ресурсов.
5. Чрезмерное доверие к автономным агентам (AI Agents)
ИИ-агенты – это продвинутые системы, способные автономно выполнять цепочки задач (например, проанализировать почту, найти информацию в сети, сгенерировать отчет, отправить его). В этом их польза, но и риск, ведь все эти действия совершаются без человеческого контроля. А значит, агента можно спровоцировать (через prompt injection или манипуляцию входными данными) на:
рассылку фишинговых писем или вредоносных ссылок внутри компании;
несанкционированный сбор и отправку конфиденциальных данных;
взаимодействие с другими системами (API) для совершения вредоносных действий (например, создание пользователя, запуск скрипта);
генерацию и распространение дезинформации.
6. Недостатки инфраструктуры (Insecure Infrastructure/Deployment)
Уязвимости в способе развертывания, интеграции и управления ИИ-системами (небезопасные API, отсутствие аутентификации/авторизации, неправильная настройка сетевого доступа, устаревшее ПО) становятся векторами атаки на критически важные и потенциально опасные ИИ-системы, умножая возможный ущерб.
Цели атак с использованием ГенИИ: зачем злоумышленникам ваши модели?
Взаимодействие с ГенИИ, особенно через агентов, открывает перед злоумышленниками новые возможности:
1. Раскрытие персональных данных и коммерческой тайны
Прямая цель – получить доступ к конфиденциальной информации через манипуляцию ИИ или взлом систем, где он интегрирован.
2. Раскрытие уязвимостей инфраструктуры
ИИ, интегрированный во внутренние системы и имеющий к ним доступ (например, ИТ-помощник), может стать "троянским конем". Злоумышленник может выведать у него детали о сетевой топологии, версиях ПО, что облегчит проникновение во внутреннюю сеть. Особенно если ИИ "знает слишком много".
3. Искажение работы ИИ (Data/Model Poisoning, Prompt Injection)
Цель – заставить ИИ генерировать намеренно ложные, но правдоподобные данные или принимать неверные решения. Например:
сфабриковать финансовый отчет для введения в заблуждение инвесторов;
сгенерировать ложные данные для обоснования мошеннической транзакции;
предоставить неверные рекомендации по лечению или техническому обслуживанию, принятию решений в условиях неопределенности и сжатых сроков.
4. Провокация ИИ на действия (через агентов)
Заставить автономного агента совершить реальное вредоносное действие: запустить скрипт-шифровальщик, отправить компрометирующие данные, дезинформировать партнеров.
Стратегии защиты: от реактивного запрета к проактивному управлению
"Не можешь остановить – возглавь!" становится императивом. Безопасность в эпоху ГенИИ требует комплексного переосмысления подходов.
1. Легализация и создание безопасной альтернативы
Признание реальности: открыто обсудите использование ГенИИ в компании. Разработайте четкую политику, разъясняющую разрешенные и запрещенные сценарии, инструменты, типы данных.
Внедрение корпоративных ИИ-решений: развивайте или внедряйте внутренние ИИ-инструменты, развернутые на контролируемой инфраструктуре. Примеры:
ИИ-аналитик данных для руководителей (анализ, прогнозирование);
ИИ-ассистент ИТ-поддержки: автоматизация рутинных запросов, обвязка сложных запросов для направления целевому специалисту;
ИИ для нормализации и очистки НСИ (нормативно-справочной информации) и повышения качества данных;
ИИ для адаптации персонала: ассистент сотрудников для адаптации и решения кадровых вопросов;
ИИ для подготовки проектной документации (ускорение работы)
ИИ-двойники руководителей (с осторожностью!) для репетиции переговоров, генерации типовых ответов на рутинные задачи, преемственности опыта;
ИИ для управления проектами, получения рекомендаций и помощи руководителям проектов;
ИИ-ассистенты для документооборота (подготовка писем, расшифровка совещаний, протоколирование).
Преимущества: контроль над данными, соответствие требованиям регуляторов, возможность внедрения встроенных средств безопасности, снижение искушения использовать публичные сервисы.
2. Специализация моделей и внедрение RAG
Общие модели (как ChatGPT) мощны, но "знают всё понемногу" и склонны к галлюцинациям. Специализированные модели, обученные или дообученные на внутренних, верифицированных данных компании (техдокументация, базы знаний, регламенты), работают точнее в своей области, требуют меньше ресурсов, проще в защите, так как их знания ограничены релевантным контекстом.
RAG (Retrieval-Augmented Generation) – ключевая технология, так как ответ ИИ формируется не только на основе его внутренних "знаний", но и путем поиска актуальной информации в доверенных внешних или внутренних источниках (базы знаний, документы, доверенные сайты). RAG:
резко снижает галлюцинации: ответ основан на реальных данных;
повышает актуальность: использует самую свежую информацию из источников;
позволяет контролировать источники: можно ограничить поиск только доверенными репозиториями, исключая ненадежные или опасные сайты;
упрощает обновление знаний: не нужно постоянно переобучать модель – достаточно обновить источник.
3. Управление данными – новый фронт обороны
Качество данных и безопасность источников. Принцип "мусор на входе – мусор на выходе" критичен для ИИ. Обязательно:
документирование потоков данных: четкое понимание, какие данные, откуда и куда поступают, как обрабатываются ИИ;
верификация и очистка данных: процедуры проверки достоверности, актуальности и отсутствия вредоносных вкраплений во входных данных для моделей;
контроль внешних источников: особое внимание безопасности и надежности API, веб-ресурсов, сторонних баз данных, с которыми интегрирован ИИ. Регулярный аудит;
4. Защита критичных активов
Основная цель атак – шифрование или кража данных. Необходимы усиленные меры: строгий контроль доступа (RBAC), надежное шифрование (как в хранилище, так и при передаче), регулярное резервное копирование и тестирование восстановления, сегментация сети.
Вместе с тем, системные промпты и конфигурации моделей – это "мозг" вашего ИИ. Храните их как секреты, строго контролируйте доступ, ведите журналы изменений. Утечка промпта – как утечка исходного кода критичного приложения.
5. Постоянное тестирование и мониторинг
Не ждите атаки, активно ищите уязвимости в своих ИИ-системах:
тестируйте на уязвимость к Prompt Injection: пытайтесь "взломать" свои модели, заставить их нарушить политики;
проверяйте на устойчивость к отравлению данных: имитируйте атаки типа Nightshade или вброс вредоносных данных;
участвуйте в кибербитвах (CTF, Bug Bounty): привлекайте этичных хакеров для поиска дыр в ваших ИИ-решениях до злоумышленников.
Сквозное Логирование и AI-driven Аналитика:
Обязательное логирование
Фиксируйте все входящие запросы к ИИ, контекст (если применимо), исходящие ответы, действия агентов, системные события. Храните логи защищенно и достаточно долго.
Автоматический анализ запросов и логов с помощью ИИ
Используйте возможности ИИ (анализ тональности, выявление аномалий, поиск шаблонов атак) для оперативного выявления подозрительной активности
Расследование инцидентов
Логи – ключевой источник информации при анализе произошедшей атаки или сбоя.
6. Стратегия работы с ИИ-Агентами: максимум контроля:
Четкие регламенты
Определите, какие задачи агентам «разрешено» выполнять автономно, а какие требуют обязательного человеческого подтверждения.
Ограничение полномочий
Принцип минимальных привилегий. Агент должен иметь доступ только к тем системам и данным, которые абсолютно необходимы для его конкретной задачи.
Непрерывный Мониторинг
Особо пристально следите за действиями агентов с помощью инструментов логирования и аналитики. Автономия не означает отсутствие надзора.
Механизмы "Стоп-Кран"
Возможность мгновенно остановить всех или конкретных агентов в случае обнаружения аномалии или атаки.
7. Уходите от чат-ботов
Думайте о том, как зашить ИИ в решение, чтобы на входе и выходе были формализованные данные (готовые рекомендации, чек-листы и т.д.). Это самый надежный уход от инъекции промта.
8. Обучайте людей
Узкое место в цифровизации и ИБ – люди. Именно люди могут неверно сформировать запрос, попасться на галлюцинации. Поэтому людей нужно обучать.
Заключение: ИБ в Эпоху ГенИИ – это новая дисциплина
Генеративный ИИ не отменяет основы информационной безопасности, но требует фундаментальной адаптации стратегий и инструментов. Ключевые выводы:
Запреты – тупик: они лишь выталкивают использование в тень и гарантируют утечки. Легализация и управление – единственный путь.
Риски реальны и специфичны: Prompt Injection, галлюцинации, утечки промптов, отравление данных, атаки через агентов – это не теоретические угрозы, а события, уже происходящие в реальном мире.
Данные – цель и новый фронт обороны: качество, источники и защита данных (включая системные промпты!) выходят на первый план. RAG – критически важная технология.
Активная оборона: пассивной защиты недостаточно. Провокационное тестирование, кибербитвы, скрупулезное логирование и AI-driven аналитика – обязательные элементы.
Человек остается ключевым звеном: обучение сотрудников безопасному использованию ИИ, понимание новых рисков и осознанное внедрение технологий – залог успеха.
Начинать строить безопасную ИИ-инфраструктуру и адаптировать практики ИБ нужно прямо сейчас. Промедление увеличивает риски и потенциальные издержки в геометрической прогрессии.
Ресурсы для изучения
Автор статьи Джимшер Челидзе: книга «Искусственный интеллект. С неба на землю», книга «Цифровая трансформация для директоров и собственников. Часть 3. Кибербезопасность»
