Генеративный ИИ: новая эра информационной безопасности

Джимшер Челидзе
9 июл.
8 мин. чтения

Содержание

Введение
Почему старые подходы не работают: порочный круг запретов и уязвимостей
Взгляд на ключевые угрозы генеративного ИИ (по мотивам OWASP Top 10 for LLM)
Цели атак с использованием ГенИИ: зачем злоумышленникам ваши модели?
Стратегии защиты: от реактивного запрета к проактивному управлению
Заключение: ИБ в Эпоху ГенИИ – это новая дисциплина
Ресурсы для изучения

Введение

Генеративный искусственный интеллект (ГенИИ) – не просто технологический тренд; это фундаментальный сдвиг в том, как мы создаем информацию, взаимодействуем с данными и, к сожалению, как злоумышленники атакуют. Его проникновение в бизнес-процессы стало массовым и зачастую стихийным. По данным анонимных опросов в профессиональных сообществах, до 70% сотрудников уже используют публичные инструменты вроде ChatGPT, Claude или Midjourney для решения рабочих задач: от подготовки отчетов и писем до генерации кода и анализа данных. Это происходит вопреки официальным запретам или в условиях полного отсутствия внутренних регламентов, то есть фактически, это массовое и бесконтрольное внедрение технологий нового класса.

Игнорирование этого факта или попытки тотального запрета не просто неэффективны – они создают новые, более серьезные риски для информационной безопасности (ИБ).

Почему старые подходы не работают: порочный круг запретов и уязвимостей

1. Миф о контроле и реальность утечек

Запретить использование мощных и доступных публичных инструментов ГенИИ невозможно технически и контрпродуктивно организационно. Сотрудники найдут обходные пути (личные устройства, VPN), а конфиденциальная корпоративная информация (спецификации, финансовые данные, стратегические планы) будет утекать на серверы разработчиков ИИ-решений, полностью выходя из-под контроля компании. Запрет = гарантированная утечка.

2. Человеческий фактор на стероидах

Данные исследований (например, Positive Research) показывают, что до 70% успешных атак на компании – целевые (таргетированные). Злоумышленники всегда эксплуатировали человеческие слабости: доверчивость, невнимательность, спешку. Поэтому социальная инженерия используется в 50% успешных атак. И ГенИИ дает тут беспрецедентные возможности.

Гиперреалистичный фишинг: создание персонализированных писем и сообщений, идеально имитирующих стиль коллег, руководителей или партнеров, с грамматически безупречным текстом на любом языке.

Мощная социальная инженерия: анализ соцсетей и открытых данных для создания сверхубедительных сценариев манипуляции.

Генерация вредоносного кода и эксплойтов: автоматизация создания или адаптации зловредов под конкретные уязвимости (которые разработчики ИТ-решений устраняют крайне медленно – по исследованиям, только 43% уязвимостей устраняются в первый год).

При этом основные цели атак остаются прежними: шифрование данных для выкупа и кража ценной информации. Так, чаще всего целями кражи информации являются:

Персональные данные сотрудников и клиентов
Финансовая отчетность и конфиденциальные данные
Данные банковских карт
Интеллектуальная собственность (ноу-хау, патенты)

Учитывая проникновение ИИ и его использование «из-под полы» и популярность социальной инженерии, сценарии использования ИИ для этих задач не такие уж и фантастические.

3. Врожденные уязвимости самого ГенИИ

Новые технологии приносят как возможности, так и новые, специфические риски, которые нельзя игнорировать. Генеративные модели – не "черные ящики", а сложные системы с собственными слабостями.

Взгляд на ключевые угрозы генеративного ИИ (по мотивам OWASP Top 10 for LLM)

Проект OWASP, мировой стандарт в веб-безопасности, выделил главные риски для больших языковых моделей (LLM). Вот их детализация и реальные примеры

1. Манипуляция запросами (Prompt Injection) – король рисков

Суть в том, чтобы использовать специально сконструированные текстовые запросы, чтобы "обмануть" ИИ, заставить его игнорировать встроенные ограничения безопасности, раскрыть конфиденциальную информацию или выполнить несанкционированные действия.

Помимо прямого финансового ущерба, это может привести к изменению данных в системах, несанкционированному доступу, отправке компрометирующих писем от имени компании.

Пример. Крис Бакке в Калифорнии не просто "поторговался". Он промптами убедил ИИ дилерского центра GM, что он – сотрудник компании, участвующий в секретной промо-акции по продаже машин за $1 для борьбы с мошенничеством. Чат-бот, обойдя стандартные проверки, создал реальный договор купли-продажи на Chevrolet Tahoe 2024 за $1.

2. "Галлюцинации" (Hallucinations) и утечки системных данных (Sensitive Information Disclosure)

Галлюцинации: ИИ генерирует информацию, которая звучит убедительно, но является полностью вымышленной или искаженной. Это не баг, а особенность вероятностной природы моделей.

Так происходит генерация ложных индикаторов компрометации, неверных рекомендаций по реагированию на инциденты, искаженных отчетов для регуляторов.

Пример. Запрос к ИИ-помощнику по юриспруденции может дать ссылки на несуществующие судебные прецеденты или статьи закона. Решение, основанное на такой информации, может привести к судебным искам или финансовым потерям.

Утечки системных промптов и конфигураций: раскрытие внутренних инструкций, настроек безопасности, фильтров или структуры данных, используемых моделью, что дает злоумышленникам "карту" для точечного поиска уязвимостей и разработки методов обхода защиты (более изощренных prompt injection).

Громкий пример (май 2025) – утечка полного системного промпта (около 24 000 токенов) модели Claude 3.7 Sonnet (Anthropic). Злоумышленники получили доступ к:

детальным поведенческим директивам (например, стремление к нейтральности).
механизмам XML-фильтрации для структурирования ответов и безопасности.
инструкциям по использованию инструментов (веб-поиск, генерация файлов, работа с API).
протоколам защиты от "джеилбрейков" (обход ограничений).

3. Отравление данных (Training Data Poisoning)

Намеренное внесение искажений в данные, на которых обучается модель, или в данные, которыми она оперирует во время работы (через внешние источники).

Это приводит к деградации качества моделей, внедрению скрытых предубеждений или уязвимостей, компрометации систем, полагающихся на внешние данные (новостные агрегаторы, аналитические платформы).

Примеры:

Microsoft Tay: Бот, обучавшийся в реальном времени в Twitter, был быстро "воспитан" пользователями для генерации расистских, сексистских и оскорбительных высказываний. Показал уязвимость к манипуляции через входные данные.
Атака Nightshade: Инструмент незаметно для человека вносит в пиксели изображений специфические помехи. Для ИИ-модели, обученной на таких "отравленных" изображениях, собака начинает восприниматься как кошка (или наоборот). Цель – подрыв работы коммерческих моделей генерации изображений, краудсорсинговых платформ для сбора данных или внесение ошибок в системы компьютерного зрения.

4. Атаки на цепочку поставок (Supply Chain Vulnerabilities)

Компрометация сторонних компонентов, используемых при создании или работе ИИ-систем: открытые библиотеки (например, для работы с LLM), фреймворки, предобученные модели, наборы данных, платформы развертывания.

Это позволяет внедрить бэкдоры, уязвимости или отравленные данные на ранних стадиях, что делает атаку масштабной и труднообнаружимой. Особенно критично для ИИ из-за сложности и зависимости от сторонних ресурсов.

5. Чрезмерное доверие к автономным агентам (AI Agents)

ИИ-агенты – это продвинутые системы, способные автономно выполнять цепочки задач (например, проанализировать почту, найти информацию в сети, сгенерировать отчет, отправить его). В этом их польза, но и риск, ведь все эти действия совершаются без человеческого контроля. А значит, агента можно спровоцировать (через prompt injection или манипуляцию входными данными) на:

рассылку фишинговых писем или вредоносных ссылок внутри компании;
несанкционированный сбор и отправку конфиденциальных данных;
взаимодействие с другими системами (API) для совершения вредоносных действий (например, создание пользователя, запуск скрипта);
генерацию и распространение дезинформации.

6. Недостатки инфраструктуры (Insecure Infrastructure/Deployment)

Уязвимости в способе развертывания, интеграции и управления ИИ-системами (небезопасные API, отсутствие аутентификации/авторизации, неправильная настройка сетевого доступа, устаревшее ПО) становятся векторами атаки на критически важные и потенциально опасные ИИ-системы, умножая возможный ущерб.

Цели атак с использованием ГенИИ: зачем злоумышленникам ваши модели?

Взаимодействие с ГенИИ, особенно через агентов, открывает перед злоумышленниками новые возможности:

1. Раскрытие персональных данных и коммерческой тайны

Прямая цель – получить доступ к конфиденциальной информации через манипуляцию ИИ или взлом систем, где он интегрирован.

2. Раскрытие уязвимостей инфраструктуры

ИИ, интегрированный во внутренние системы и имеющий к ним доступ (например, ИТ-помощник), может стать "троянским конем". Злоумышленник может выведать у него детали о сетевой топологии, версиях ПО, что облегчит проникновение во внутреннюю сеть. Особенно если ИИ "знает слишком много".

3. Искажение работы ИИ (Data/Model Poisoning, Prompt Injection)

Цель – заставить ИИ генерировать намеренно ложные, но правдоподобные данные или принимать неверные решения. Например:

сфабриковать финансовый отчет для введения в заблуждение инвесторов;
сгенерировать ложные данные для обоснования мошеннической транзакции;
предоставить неверные рекомендации по лечению или техническому обслуживанию, принятию решений в условиях неопределенности и сжатых сроков.

4. Провокация ИИ на действия (через агентов)

Заставить автономного агента совершить реальное вредоносное действие: запустить скрипт-шифровальщик, отправить компрометирующие данные, дезинформировать партнеров.

Стратегии защиты: от реактивного запрета к проактивному управлению

"Не можешь остановить – возглавь!" становится императивом. Безопасность в эпоху ГенИИ требует комплексного переосмысления подходов.

1. Легализация и создание безопасной альтернативы

Признание реальности: открыто обсудите использование ГенИИ в компании. Разработайте четкую политику, разъясняющую разрешенные и запрещенные сценарии, инструменты, типы данных.

Внедрение корпоративных ИИ-решений: развивайте или внедряйте внутренние ИИ-инструменты, развернутые на контролируемой инфраструктуре. Примеры:

ИИ-аналитик данных для руководителей (анализ, прогнозирование);
ИИ-ассистент ИТ-поддержки: автоматизация рутинных запросов, обвязка сложных запросов для направления целевому специалисту;
ИИ для нормализации и очистки НСИ (нормативно-справочной информации) и повышения качества данных;
ИИ для адаптации персонала: ассистент сотрудников для адаптации и решения кадровых вопросов;
ИИ для подготовки проектной документации (ускорение работы)
ИИ-двойники руководителей (с осторожностью!) для репетиции переговоров, генерации типовых ответов на рутинные задачи, преемственности опыта;
ИИ для управления проектами, получения рекомендаций и помощи руководителям проектов;
ИИ-ассистенты для документооборота (подготовка писем, расшифровка совещаний, протоколирование).

Преимущества: контроль над данными, соответствие требованиям регуляторов, возможность внедрения встроенных средств безопасности, снижение искушения использовать публичные сервисы.

2. Специализация моделей и внедрение RAG

Общие модели (как ChatGPT) мощны, но "знают всё понемногу" и склонны к галлюцинациям. Специализированные модели, обученные или дообученные на внутренних, верифицированных данных компании (техдокументация, базы знаний, регламенты), работают точнее в своей области, требуют меньше ресурсов, проще в защите, так как их знания ограничены релевантным контекстом.

RAG (Retrieval-Augmented Generation) – ключевая технология, так как ответ ИИ формируется не только на основе его внутренних "знаний", но и путем поиска актуальной информации в доверенных внешних или внутренних источниках (базы знаний, документы, доверенные сайты). RAG:

резко снижает галлюцинации: ответ основан на реальных данных;
повышает актуальность: использует самую свежую информацию из источников;
позволяет контролировать источники: можно ограничить поиск только доверенными репозиториями, исключая ненадежные или опасные сайты;
упрощает обновление знаний: не нужно постоянно переобучать модель – достаточно обновить источник.

3. Управление данными – новый фронт обороны

Качество данных и безопасность источников. Принцип "мусор на входе – мусор на выходе" критичен для ИИ. Обязательно:

документирование потоков данных: четкое понимание, какие данные, откуда и куда поступают, как обрабатываются ИИ;
верификация и очистка данных: процедуры проверки достоверности, актуальности и отсутствия вредоносных вкраплений во входных данных для моделей;
контроль внешних источников: особое внимание безопасности и надежности API, веб-ресурсов, сторонних баз данных, с которыми интегрирован ИИ. Регулярный аудит;

4. Защита критичных активов

Основная цель атак – шифрование или кража данных. Необходимы усиленные меры: строгий контроль доступа (RBAC), надежное шифрование (как в хранилище, так и при передаче), регулярное резервное копирование и тестирование восстановления, сегментация сети.

Вместе с тем, системные промпты и конфигурации моделей – это "мозг" вашего ИИ. Храните их как секреты, строго контролируйте доступ, ведите журналы изменений. Утечка промпта – как утечка исходного кода критичного приложения.

5. Постоянное тестирование и мониторинг

Не ждите атаки, активно ищите уязвимости в своих ИИ-системах:

тестируйте на уязвимость к Prompt Injection: пытайтесь "взломать" свои модели, заставить их нарушить политики;
проверяйте на устойчивость к отравлению данных: имитируйте атаки типа Nightshade или вброс вредоносных данных;
участвуйте в кибербитвах (CTF, Bug Bounty): привлекайте этичных хакеров для поиска дыр в ваших ИИ-решениях до злоумышленников.

Сквозное Логирование и AI-driven Аналитика:

Обязательное логирование

Фиксируйте все входящие запросы к ИИ, контекст (если применимо), исходящие ответы, действия агентов, системные события. Храните логи защищенно и достаточно долго.

Автоматический анализ запросов и логов с помощью ИИ

Используйте возможности ИИ (анализ тональности, выявление аномалий, поиск шаблонов атак) для оперативного выявления подозрительной активности

Расследование инцидентов

Логи – ключевой источник информации при анализе произошедшей атаки или сбоя.

6. Стратегия работы с ИИ-Агентами: максимум контроля:

Четкие регламенты

Определите, какие задачи агентам «разрешено» выполнять автономно, а какие требуют обязательного человеческого подтверждения.

Ограничение полномочий

Принцип минимальных привилегий. Агент должен иметь доступ только к тем системам и данным, которые абсолютно необходимы для его конкретной задачи.

Непрерывный Мониторинг

Особо пристально следите за действиями агентов с помощью инструментов логирования и аналитики. Автономия не означает отсутствие надзора.

Механизмы "Стоп-Кран"

Возможность мгновенно остановить всех или конкретных агентов в случае обнаружения аномалии или атаки.

7. Уходите от чат-ботов

Думайте о том, как зашить ИИ в решение, чтобы на входе и выходе были формализованные данные (готовые рекомендации, чек-листы и т.д.). Это самый надежный уход от инъекции промта.

8. Обучайте людей

Узкое место в цифровизации и ИБ – люди. Именно люди могут неверно сформировать запрос, попасться на галлюцинации. Поэтому людей нужно обучать.

Заключение: ИБ в Эпоху ГенИИ – это новая дисциплина

Генеративный ИИ не отменяет основы информационной безопасности, но требует фундаментальной адаптации стратегий и инструментов. Ключевые выводы:

Запреты – тупик: они лишь выталкивают использование в тень и гарантируют утечки. Легализация и управление – единственный путь.
Риски реальны и специфичны: Prompt Injection, галлюцинации, утечки промптов, отравление данных, атаки через агентов – это не теоретические угрозы, а события, уже происходящие в реальном мире.
Данные – цель и новый фронт обороны: качество, источники и защита данных (включая системные промпты!) выходят на первый план. RAG – критически важная технология.
Активная оборона: пассивной защиты недостаточно. Провокационное тестирование, кибербитвы, скрупулезное логирование и AI-driven аналитика – обязательные элементы.
Человек остается ключевым звеном: обучение сотрудников безопасному использованию ИИ, понимание новых рисков и осознанное внедрение технологий – залог успеха.

Начинать строить безопасную ИИ-инфраструктуру и адаптировать практики ИБ нужно прямо сейчас. Промедление увеличивает риски и потенциальные издержки в геометрической прогрессии.

Ресурсы для изучения