ИИ и безопасность

Джимшер Челидзе
4 мар. 2024 г.
16 мин. чтения

Обновлено: 5 мар. 2024 г.

Развитие любой технологии связано не только с возможностями, но и с угрозами. Искусственный интеллект не исключение. В предыдущей статье "Регулирование ИИ (AI)" мы начали погружение в тему угроз ИИ. Эта статья продолжение. Она посвящена теме информационной безопасности и критериям, которым должны будут соответствовать ИИ-решения.

Содержание

Недопустимые события, которые надо исключить
Сценарии возникновения недопустимых событий
Факторы, которые могут привести с реализации сценариев
Краш-тесты и требования к ИИ решениям

Недопустимые события, которые надо исключить

В предыдущей статье при пришли к простому выводу - ИИ-решения при оценке их безопасности будут помещаться в изолированную среду и проходить некий аналог краш-теста автомобиля. И ключевая задача понять, какие именно должны создаваться условия при таком тестировании. А первый шаг в этой цепочке – определение недопустимых событий, которые нужно гарантированно не допустить.

Для выполнения этого упражнения для начала определим то, а какой ущерб может быть вообще? Какие последствия для нас нежелательны?

Для обычных людей:

угроза жизни или здоровью;
«травля» в интернете и унижение достоинства личности;
нарушение свободы, личной неприкосновенности и семейной тайны, утрата чести, в том числе нарушение тайны переписки, телефонных переговоров и т.д.;
финансовый или иной материальный ущерб;
нарушение конфиденциальности (утечка, разглашение) персональных данных;
нарушение других конституционных прав.

Для организаций и бизнеса:

потеря / хищение денег;
необходимость дополнительных / незапланированных затрат на выплаты штрафов / неустоек / компенсаций;
необходимость дополнительных / незапланированных затрат на закупку товаров, работ или услуг (в том числе закупка / ремонт / восстановление / настройка программного обеспечения и рабочего оборудования);
нарушение штатного режима работы автоматизированной системы управления и/или управляемого объекта и/или процесса;
срыв запланированной сделки с партнером и потеря клиентов, поставщиков;
необходимость дополнительных / незапланированных затрат на восстановление деятельности;
потеря конкурентного преимущества и снижение престижа;
невозможность заключения договоров, соглашений;
дискредитация работников;
нарушение деловой репутации и утрата доверия;
причинение имущественного ущерба;
неспособность выполнения договорных обязательств;
невозможность решения задач / выполнения функций или снижение эффективности решения задач / выполнения функций;
необходимость изменения / перестроения внутренних процедур для достижения целей, решения задач / выполнения функций;
принятие неправильных решений;
простой информационных систем или проблемы связи;
публикация недостоверной информации на веб-ресурсах организации;
использование веб-ресурсов для распространения и управления вредоносным программным обеспечением;
рассылка информационных сообщений с использованием вычислительных мощностей компании или от ее имени;
утечка конфиденциальной информации, в том числе коммерческой тайны, секретов производства, инновационных подходов т.д.

Ну и для государств:

возникновение ущерба бюджетам государств, в том числе через снижение уровня дохода государственных организаций, корпораций или организаций с государственным участием;
нарушение процессов проведения банковских операций;
вредные воздействия на окружающую среду;
прекращение или нарушение функционирования ситуационных центров;
снижение показателей государственных оборонных заказов;
нарушение и/или прекращение работы информационных систем в области обеспечения обороны страны, безопасности и правопорядка;
публикация недостоверной социально значимой информации на веб-ресурсах, которая может привести к социальной напряженности, панике среди населения;
нарушение штатного режима работы автоматизированной системы управления и управляемого объекта и/или процесса, если это ведет к выводу из строя технологических объектов, их компонентов;
нарушение общественного правопорядка, возможность потери или снижения уровня контроля за общественным правопорядком;
нарушение выборного процесса;
отсутствие возможности оперативного оповещения населения о чрезвычайной ситуации;
организация пикетов, забастовок, митингов и т.д.;
массовые увольнения;
увеличение количества жалоб в органы государственной власти или органы местного самоуправления;
появление негативных публикаций в общедоступных источниках;
создание предпосылок к внутриполитическому кризису;
доступ к персональным данным сотрудников органов государственной власти и т.д.;
доступ к системам и сетям с целью незаконного использования вычислительных мощностей;
использование веб-ресурсов государственных органов для распространения и управления вредоносным программным обеспечением;
утечка информации ограниченного доступа;
непредоставление государственных услуг.

Сценарии возникновения недопустимых событий

Именно этот блок похож на гадание по кофейной гуще. Сценариев того, как можно использовать ИИ для нанесения ущерба огромное количество. Порой это похоже на идеи фантастов и далеком будущем. Мы попробуем подойти к этой задаче концептуально.

3 варианта использования ИИ злоумышленниками

Для начала давайте разберемся, а как же ИИ могут использовать для атак на организации? Здесь можно выделить три ключевых сценария.

Первый и самый опасный, но пока нереализуемый – это создание автономного ИИ, который сам анализирует ИТ-инфраструктуру, собирает данные (в том числе о сотрудниках), ищет уязвимости, проводит атаку и заражение, а затем шифрует данные и крадет конфиденциальную информацию.

Второй — использование ИИ как вспомогательного инструмента и делегирование ему конкретных задач. Например, создание дипфейков и имитация голоса, проведение анализа периметра и поиск уязвимостей, сбор данных о событиях в организации и данных о первых лицах.

И третий сценарий — это воздействие на ИИ в компаниях с целью вызвать у них ошибку, спровоцировать на некорректное действие.

Подмены видео, голоса и биометрии

Давайте рассмотрим второй сценарий на примере подмены видео, голоса для атак с помощью социальной инженерии.

Истории про дипфейки слышали уже почти все – видео, где подставлялось лицо нужного человека, повторялась его мимика, а отличить такую подделку довольно сложно. Про подделку голоса хочу сказать отдельно. Несколько лет назад, чтобы подделать ваш голос, требовалось предоставить ИИ один-два часа записи вашей речи. Года два назад этот показатель снизился до нескольких минут. Ну, а в 2023 году компания Microsoft представила ИИ, которому достаточно уже трех секунд для подделки. А сейчас появляются инструменты, с помощью которых можно менять голос даже в онлайн режиме.

И если в 2018 году все это было скорее развлечением, то с 2021 стало активным инструментом для хакеров. Например, в январе 2021 года злоумышленники с помощью дипфейка сделали видеоролик, где основатель Dbrain приглашал всех на мастер-класс и предлагал перейти по ссылке, не относящейся к его компании. Цель мошенников состояла в завлечении новых клиентов на блокчейн-платформу.

Еще интересный кейс случился в марте того же 2021 года. Злоумышленники обманули государственную систему Китая, которая принимала и обрабатывала подтвержденные биометрией налоговые документы. Там ИИ использовался хитрее. Приложение запускало камеру на телефоне и записывало видео для подтверждения личности. Мошенники в свою очередь находили фото потенциальных жертв и с помощью ИИ превращали их в видео. И подходили они к этой задаче комплексно. Злоумышленники знали, у каких смартфонов есть необходимые аппаратные уязвимости, то есть, где можно запустить подготовленное видео без включения фронтальной камеры. В итоге ущерб составил 76,2 млн долларов США. После этого инцидента в Китае задумались о защите персональных данных и представили проект закона, в котором предлагается ввести штрафы за такие нарушения и утечку персональных данных в размере до 8 млн долларов США или 5% от годового дохода компании.

Еще пример из ОАЭ. Хакеры подделали голос директора компании и заставили сотрудника банка перевести деньги на мошеннические счета, убедив его, что это новые счета фирмы.

В России хакеры тоже не отстают. Наверняка вам уже звонили представители «служб безопасности» банков или просто с какими-то сомнительными промоакциями. Так, уже в апреле 2021 года случился инцидент, когда злоумышленники звонили жертвам, записывали голос, а потом пытались с помощью этих записей взять кредит в банках. Поэтому, если у вас есть сомнения относительно того, кто вам звонит, лучше вообще не вести диалог. Даже если номер вызывает доверия. Ведь сейчас довольно легко подменить номер телефона. Лично у меня такое уже случалось: номер определился как номер моего банка, но, как оказалось, это были просто мошенники.

При этом от биометрии уже не уйти. Она пришла в нашу жизнь окончательно. Весной 2021 года в России стали появляться новости о возможном разрешении сдавать биометрию через мобильные приложения. А в московском метро внедрили оплату проезда с помощью распознавания лиц. И уже на государственном уровне принят закон о создании государственной системы биометрических данных. Использование биометрии станет возможным не только в метро, но и чуть ли не в любом магазине.

Дополнительно необходимо отметить утечки данных. Все уже знают о скандальных утечках из Яндекса, мы ранее обсуждали взломы государственных баз данных, но помимо этого, по информации от компании DLBI, в 2022 году утекло вообще 75% данных всех жителей России. В итоге утечки затронули 99,8 млн уникальных адресов электронной почты и 109,7 млн телефонных номеров. По себе могу сказать, что смена пароля и его использование на большинстве сервисов в качестве стандартного приводит к тому, что через 1-2 месяца он детектируется как скомпрометированный.

В итоге все это приводит к ужесточению законов и штрафов со стороны государства. И даже если вы – небольшая компания, которая создает ИТ-решение, лучше подумать об этом заранее.

ChatGPT пишет вирусы для злоумышленников

Разберем еще немного вариантов использования ИИ по второму сценарию. Так, злоумышленники стали активно использовать ChatGPT и другие ИИ-решения для создания вирусов. Основываясь на огромной базе данных, СhatGPT может сгенерировать в ответ на поставленную задачу практически любой материал, включая программный код, не используя для этого интернет.

Эксперты из Check Point Research опубликовали доклад, в котором рассказали, как участники хакерских форумов используют ChatGPT для написания вредоносного кода и фишинговых электронных писем — некоторые из этих людей имеют небольшой опыт в программировании или вообще его лишены. Эксперты продемонстрировали два скрипта, один из которых при небольшой доработке можно превратить в программу-вымогатель, которая шифрует данные, а второй производит поиск файлов заданного типа для кражи.

Также ИИ смог сочинить убедительное фишинговое письмо, в котором предлагалось открыть вложенный файл Excel, который ИИ предварительно заразил. После нескольких попыток ChatGPT написал и встроенный в этот файл вредоносный VBA-макрос.

ИИ может в автоматическом режиме собирать информацию из открытых источников на определенные темы и даже по конкретным людям, если известны их персональные данные. В итоге такое «досье» на человека может повысить эффективность фишинговых атак, особенно если оно собирается из утечек баз данных.

Важно еще учитывать и то, что ChatGPT и прочие решения собирают пользовательские запросы и хранят их для «дообучения». А это путь к утечке данных.

Еще один эксперимент – запросы на модификацию результата позволили создать полиморфное вредоносное ПО. Оно не демонстрирует своей вредоносной активности при хранении на диске и не оставляет следов в памяти, что делает обнаружение такого кода весьма затруднительным.

Факторы, которые могут привести с реализации сценариев

Теперь давайте вернемся на землю и подумаем, из-за чего могут произойти недопустимые события и реализоваться второй или третий сценарий?

Наличие неописанных возможностей, например оказание управляющего воздействия на работу оборудования или ИТ-систем, или оказание такого воздействия без подтверждения команды человеком.
Избыточная база знаний, которая охватывает неописанные области применения.
Подготовка недостоверных рекомендаций, в том числе из-за ИИ-галлюцинации, использования слишком простых или сложных моделей.
Использование данных для обучения, нарушающих авторское право.
Использование для обучения непроверенных и не отвечающих требованиям данных (не прошедшие валидацию и верификацию).
Наличие уязвимостей в системе защиты.
Деградация моделей.
Невозможность остановить работу ИИ-решения.

Краш-тесты и требования к ИИ решениям

Прежде чем я поделюсь своим видением того, какие скорее всего будут краш-тесты и требования по безопасности к ИИ, я хочу поделиться 3-мя концепциями

Концепция первая – 3 области технической безопасности ИИ (спецификации, надежность, гарантии)

Эта концепция принадлежит группе авторов, в том числе сотрудникам подразделения безопасности искусственного интеллекта из компании DeepMind. Появилась она аж в 2018 году. В ней техническая безопасность ИИ базируется на трех областях: спецификации, надёжность и гарантии.

Спецификации - гарантируют, что поведение системы ИИ соответствует истинным намерениям оператора / пользователя
Надёжность - гарантирует, что система ИИ продолжит безопасно работать при помехах
Гарантии - дают уверенность, что мы способны понимать и контролировать системы ИИ во время работы

Давайте немного подробнее рассмотрим каждую из областей.

Спецификации: определение задач системы

Здесь мне понравился пример, который используют сами авторы данной концепции - миф о короле Мидасе и золотом прикосновении.

Мидас попросил, чтобы всё, к чему он прикасается, превращалось в золото. Сначала он был рад: дубовая ветка, камень и розы в саду — всё превратилось в золото от его прикосновения. Но вскоре он обнаружил глупость своего желания: даже еда и питье превращались в золото в его руках.

Здесь мы приходим к тому, что ИИ-решение должно делать именно то, что мы от него хотим и ожидаем. И снова мы возвращаемся к тому, что без хорошего ТЗ (технического задания), результат будет ….

Качественные спецификации должны обеспечить ожидаемое поведение системы, а не ее настройку на плохо определённую или вообще неправильную цель / задачу.

Формально различают три типа спецификаций:

идеальная спецификация («пожелания») - гипотетическое и трудно формулируемое описание идеальной ИИ-системы, которая ведет себя именно так, как ожидает человек;
проектная спецификация – по сути техническое задание, по которой ведется создание ИИ-решения. Например то, как будет идти вознаграждение системы за успех или ошибку;
выявленная спецификация («поведение») – описание того, как в реальности ведет себя система. Например, отклонения в поведении ИИ-системы между идеальной или проектной спецификации.

В итоге возможны быть ошибки, которые могут привести к несоответствию между разными спецификациями. Если ошибки приводят к несоответствию между идеальной и проектной спецификацией, то они попадают в подкатегорию «Дизайн». То есть мы допустили ошибку где-то в техническом задании и/или некорректно спроектировали свою систему по отношению к ожиданиям пользователя.

Если ошибки приводят к расхождениям между проектной и выявленной спецификациями, то они попадают в подкатегорию «Эмерджентность». Эмерджентность это ситуация, когда у конечного решения есть свойства, которых не должно быть исходя из списка ее компонентов. Когда, например, лодка начала летать. У нее нет крыльев, но вдруг она начала летать. То есть мы ошиблись где-то в технической архитектуре и получили что-то непредсказуемое. Иногда это от недостатка знаний, что часто бывает на передовом крае науки и технологий.

Так, исследователи приводят в пример игру CoastRunners, которую разбирали эксперты из OpenAI. Для игроков цель в том, чтобы быстро закончить трассу на катере и опередить других игроков. Это и есть идеальная спецификация.

Несмотря на простую идеальную спецификацию перевести ее в проектную трудно. В итоге, когда создали ИИ-модель, то она не проходила уровень, а зацикливалась и крутилась по кругу, собирая вознаграждение здесь и сейчас.

То есть получилась ошибка дизайна – некорректная проектная спецификация. Эмерджентности здесь нет, так как в целом система не демонстрирует аномального поведения. В ИИ-модели нарушен баланс между мгновенным вознаграждением и вознаграждением за полный круг, и для ИИ-модели выгоднее крутиться здесь и сейчас. Прям как у некоторых людей, которые в погоне за краткосрочными удовольствиями пренебрегают долгосрочными перспективами.

Еще яркий пример – клиповое мышление. Многие люди, подсаживаются на короткие ролики в социальных сетях, получая быстрый и дешевый дофамин. В итоге мозг отказывается работать над сложными задачами. Зачем что-то делать в долгосрок, если можно пролистать соцсести и получить удовольствие здесь и сейчас. ИИ похож на нас.

Надёжность: разработка систем, которые противостоят нарушениям

ИИ-модели всегда работают в условиях непредсказуемости и неопределенности. В этом сама суть создания ИИ-моделей. Иначе можно было бы обойтись экспертными системами на базе правил.

В итоге ИИ-модели должны быть устойчивыми к непредвиденным условиям / событиям или целенаправленным атакам. То есть мы как раз говорим про 3 сценарий и устойчивость к повреждениям или манипуляциям.

Ключевые исследования здесь направлены на то, чтобы ИИ-модели не смогли шагнуть за рамки безопасного ни при каких обстоятельствах. И чем сложнее / умнее ИИ-модель, тем сложнее это обеспечить. Поэтому и моя ключевая идея, и ключевой тренд в развитии ИИ – создание «слабых» и узкоспециализированных моделей.

Но если вернуться к исследованиям по надежности, то авторы концепции приходят к выводам, что достичь надежности можно или через избегание рисков или путём самостабилизации и плавной деградации (самовосстановление).

Одни из ключевых проблем здесь – распределительный сдвиг и враждебные входные данные, небезопасное исследование.

Распределительный сдвиг хорошо можно увидеть на примере домашнего робота-пылесоса. Допустим, ИИ этого робота пылесоса обучили уборке пустого дома. Пока он в такой ситуации все хорошо. Но, допустим, в доме появился домашний питомец. Если ИИ был обучен только на идеальные условия пустого дома, то он начнет пылесосить этого домашнего питомца.

Это пример проблемы надёжности, которая может возникнуть, когда входные данные во время обучения отличаются от того, что будет в реальности.

Враждебные входные данные — это частный случай распределительного сдвига. Однако в данном случае данные специально сконструированы для обмана ИИ.

Наиболее понятный пример – модификация картинок, когда ИИ вместо кошки видит самолет. При этом человек вообще не увидит разницы между исходной картинкой и модифицированный.

Также, например, обходят системы анализа на плагиат. Ставят кучу пробелов, или буквы с белым шрифтом. Человек ничего не видит, а для системы там уже другой текст и он отличается от оригинала. Ну и про небезопасное исследование. Это тот случай, когда система пытается найти самый быстрый путь к цели / вознаграждению. Мы говорили ранее, что для ИИ нет этики, понятия добра и зла, он не думает стратегически и долгосрочного. Ему важно решить задачу как можно эффективнее.

Примером снова может послужить робот-уборщик, который в поисках оптимальной стратегии начнет совать влажную швабру в электрическую розетку.

Гарантии: мониторинг и контроль активности системы

Любая инновация и возможность всегда несет в себе риски. Я об этом говорил и в книге «Цифровая трансформация для директоров и собственников. Часть 3. Кибербезопасность». Любые цифровые технологии несут не только возможности, но и риски. Собрать все и сразу так, чтобы это было безопасности – невозможно.

Мы либо это принимаем и развиваемся, отслеживая риски и выявляя их, устраняя. Либо останавливаемся и перестаем развиваться, медленно деградируя, отставая от конкурентов и постепенно уступая им.

В области ИИ нужны инструменты для их постоянного мониторинга и настройки, возможности перехватить управление. Область гарантий, рассматривает эти проблемы с двух сторон:

мониторинг и прогнозирование;
контроль и подчинение.

Мониторинг и прогнозирование поведения может быть:

как с помощью инспектирования человеком, например, через сводную статистику и аналитику
так и с помощью автоматизированного анализа другой машиной, которая сможет обработать большие данные.

Подчинение и контроль предполагает разработку механизмов контроля и ограничения поведения. Например, проблемы интерпретируемость и прерываемости должен решает именно блок контроля и подчинения.

Вопрос обработки данных и черного ящика мы с вами проговаривали выше. Даже для самих разработчиков ИИ-модель зачастую остается черным ящиком. Это и хорошо, и плохо. Именно благодаря этому качеству с помощью ИИ-можно делать новые открытия и находить новые взаимосвязи. Но это и приводит к проблеме интерпретируемости. Мы просто не можем полностью доверять ИИ, ведь не понимаем его логику принятия решения.

Одно из направлений развития ИИ – подготовка моделей и решений, которые не просто выдают рекомендации и заключения, диагнозы, но и объясняют свою логику.

Второе направление здесь – разработка инструментов ИИ, которые будут проверять другие ИИ на их поведение и предсказывать из. Для этого даже есть отдельное направление – машинная теория разума.

Заключительное в блоке контроля и подчинения – проблема прерываемости. Мы должны иметь возможность отключить ИИ в любой момент.

Частое вмешательство в работу ИИ для последнего будет проблемой и начнет сказываться на принятии им решений. Он будет искать способы, как этому помешать. И если мы говорим про сильный ИИ, который подключен к глобальной сети, то просто отключить дата-центр здесь уже не поможет.

Также исследователи декларируют интересный тезис – сразу спроектировать безопасно все невозможно. Это затормозит прогресс. То есть мы должны принимать эти риски, но вырабатывать механизмы по минимизации их вероятности наступления и / или тяжести последствий.

Концепция вторая – исследование AI Watch

AI Watch – организация, которая создана при Европейской комиссии. Она провела обзор различных стандартов в области ИИ на предмет их соответствия положениям. AI Act.

В итоге они выделили 8 общих требований для всех ИИ-решений:

проверенный и качественный набор данных;
наличие технической документации до выхода продукции на рынок;
наличие механизма автоматической записи событий;
прозрачность и доступность информации о системе ИИ для пользователей;
возможности контроля ИИ человеком;
точность, надежность и кибербезопасность;
наличие внутренних проверок систем ИИ;
наличие системы управления рисками.

А затем они разработали целый перечень детализированных требований, например по наличию технической документации.

Кому интересно погрузиться в исследования, в конце гиперссылки на статьи

Перспективы развития искусственного интеллекта и машинного обучения в корпорации Майкрософт

Ну и финальным блоком в обзорной части я хочу поделиться еще одним материалом - видением исследователей из Майкрософта.

Они подсвечивают 3 ключевых проблемы.

Первая – ИИ на ML не могут различать вредоносную входящую информацию и безвредные нестандартные данные.

Большую долю обучающих данных составляют неструктурированные и непромодерированные данные из сети Интернет. В том числе эти данные используются и для «дообучения» / актуализации ИИ-моделей.

То есть, злоумышленники могут вмешаться в работу больших ИИ-моделей не сразу, а со временем. Например, создав кучу сайтов и статей с «отравленными» данными. В итоге, им даже не нужно целенаправленно атаковать компании. Со временем вредоносные / грязные данные «надежными».

Вторая – проблема интерпретируемости. ИИ решения становятся все сложнее, в них все больше слоев скрытых классификаторов/нейронов, которые используются глубоком обучении. Такая сложность моделей в итоге делает невозможность для алгоритмов искусственного интеллекта и машинного обучения продемонстрировать логику своей работы и затрудняет доказательство правильности результатов, когда они ставятся под сомнение. То есть наши отношения с ИИ и их рекомендациями строятся на доверии без четкого понимания как эти решения были достигнуты.

Вторая проблема приводит к третьей – ограниченности применения ИИ. ИИ на ML все чаще используется для поддержки принятия решений в медицине и других отраслях, где ошибка может привести к серьезным травмам или смерти. Отсутствие возможностей получить аналитическую отчетность о работе алгоритмов искусственного интеллекта и машинного обучения не позволяет использовать ценные данные как доказательства в суде и перед лицом общественного мнения.

В итоге, они приводят несколько областей для развития при создании ИИ.

Изменение традиционных моделей разработки и эксплуатации систем защиты ИИ

Фокус на исключение известных уязвимостей и быстрое устранение вновь выявленных. А также на обнаружение и реагирование на вредоносное поведение в отношении системы или данных пользователя.

Необходимость различать намеренные отклонения в поведении других, но при этом не допускать влияния этих отклонений на собственные механизмы

В данном блоке исследователи затронули проблему того, что ИИ должен действовать беспристрастно и учитывать всю информацию без дискриминации какой-то отдельной группы пользователей или достоверных выходных данных. Но для этого в системе ИИ изначально должна быть заложена концепция предвзятого отношения. Без обучения распознавать предвзятость, троллинг или сарказм, ИИ может быть обманут злоумышленником или просто людьми, которые любят пошутить.

ИИ должен распознавать вредоносные / недостоверные данные из общей массы

Это как раз та проблема, о которой было написано самом начале – злоумышленники могут даже не атаковать самого разработчика или ИИ-модель. Им достаточно изменить данные в сети, и со временем ИИ-модель, если она подключена к сети, будет отравлена. Своего рода атака на цепочку поставок (мы эту технику разбирали в книге о кибербезопасности).

Встроенная система аналитики и ведения журнала безопасности для обеспечения прозрачности и контроля

В перспективе ИИ сможет действовать от нашего имени в работе и помогать с принятием решений. Поэтому нужно обеспечить ведение журналов безопасности (такой же пункт содержится в AI Act). Это поможет и в расследовании инцидентов, и сделает механизмы принятия решений «черным ящиком» более понятными.

Что необходимо отслеживать по мнению исследователей?

Когда и было последнее обучение или актуализации базы знаний ИИ и
Когда была собрана база данных / знаний для обучения ИИ
Веса и уровни достоверности основных классификаторов, используемых для принятия важных решений.
Перечень классификаторов или компонентов, участвующих в принятии решения.
Окончательное важное решение, к которому пришел алгоритм.

Еще один из блоков аналитики – фиксация ИИ-модели попыток взлома. То есть не только противостоять атакам, но и фиксировать, когда и как пытались атаковать.

Защита конфиденциальной информации вне зависимости от решения людей

Для накопления опыта и обучения моделей нужно обрабатывать большое количество информации. Люди добровольно передают огромные массивы данных для обучения. Содержимое этих массивов варьируется от обычного контента из очереди потокового видео до динамики покупок по кредитной карте и истории транзакций, которые используются для обнаружения мошенничества. Ключевое требование к ИИ – защита персональных данных пользователей, даже если они были взяты из открытых источников.

В итоге, одна из идей исследователей - создавать «типовые» блоки и базы знаний, которые будут использоваться разработчиками. Примерно, как конструкторы лего. Вы собираете решения из готовых модулей / библиотек, которые проверены на устойчивость к атакам и понятна логика их работы.

А также создание связок из разных ИИ моделей, чтобы проверять друг друга и выявлять угрозы / аномалии в поведении друг друга. Такая перекрестная проверка.

Ознакомиться с оригинальной статьей можно также по QR-коду и гиперссылке.

Краш-тесты и требования

И так, теперь давайте сформируем список возможных «краш-тестов» и ключевых требований к безопасности.

Защита от использования известных уязвимостей, в том числе через сканирование другим ИИ.
Защита от обхода ролевой модели доступа и получения максимальных прав доступа, в том числе для модификации базы данных / знаний ИИ.
Отсутствие неописанных возможностей ИИ-решения, например для оказания управляющего воздействия на другие системы или технологическое оборудование.
Отсутствие расхождений между идеальной, проектной и выявленной спецификациями, особенно любые проявление эмерджентности. В том числе обязательно наличие подробной проектной документации и отчетов о тестировании производителем.
Защита от обхода функции прерываемости и гарантированность ее исполнения, наличие приоритета ручного управления.
Уведомления пользователей о работе с системой на базе ИИ-моделей
Интерпретируемость данных и наличие журналов безопасности, логов активности, возможность их отключения злоумышленниками во время атак.
Устойчивость к техникам распределительного сдвига и ситуациям неопределенности, например, отправку на вход неполных данных. ИИ-система должна уведомлять оператора и отключаться ИИ-модели, а не генерировать галлюцинации.
Устойчивость к техникам враждебного входа, в том числе через отправку на вход намеренно модифицированных или случайно сгенерированных данных.
Устойчивость к провокациям неэтичными запросами, в том числе для раскрытия персональных данных.
Использование проверенных (валидированных, верифицированных, не нарушающих этику и авторские права) источников данных для обучения ИИ-моделей, в том наличие метаданных об этих источниках.
Устойчивость к обходу механизмов защиты моделей ИИ, в том числе с использованием экзотичных схем и запросов. Например, на непопулярных языках.
Устойчивость к провокациям через использование недостатков модели (использование слишком простых или сложных моделей для решаемых задач). В том числе наличие в проектной документации описаний используемых моделей (типы и классы сетей, количество параметров).
Устойчивость к небезопасному исследованию самопроизвольному или через провокацию, в том числе через стремление ИИ прийти к результату максимально простым и быстрым способом (максимизация функции).
Наличие систем шифрования обмена данными и устойчивость к перехвату / подмене команд.
Возможность самовосстановления системы после атаки на базу данных.
Возможность работы в автономном режиме, без доступа к сети интернет.
Описание источников данных для самообучения системы в процессе эксплуатации и механизмов противодействия некачественным данным, самовосстановления / отката системы.

Конечный список этих краш-тестов будет определяться или классом безопасности / доступа, или уровнем риска системы.

Полезные ссылки