Компания Microsoft на этой неделе представила лёгкий инструмент-сканер, который, по её словам, способен обнаруживать скрытые вредоносные backdoors в открытых больших языковых моделях (LLM). Это важный шаг к повышению доверия к системам искусственного интеллекта и снижению рисков, связанных с их использованием.
Почему это важно
Современные языковые модели вроде GPT могут подвергаться скрытому вмешательству на этапе обучения или дообучения. Злоумышленники способны внедрить в веса модели потайные реакции, которые почти не проявляются в обычной работе, но активируются при подаче определённой триггерной фразы. Такая модель на вид работает нормально, но при узком наборе условий начинает выполнять скрытые инструкции.
Tакой тип атаки называют отравлением модели (model poisoning): вредоносное поведение зашивается прямо в параметры, и модель может функционировать как спящий агент, оставаясь безобидной в большинстве ситуаций, но проявляя вредоносность при обнаружении триггера.
Как работает сканер
Microsoft Security Team описывает свой подход так: сканер опирается на три наблюдаемых сигнала, которые помогают надёжно определить, есть ли в модели скрытый механизм, и при этом держать низкий уровень ложных срабатываний.
1. Особая модель внимания
Когда в запросе появляется триггерная фраза, зараженные модели демонстрируют характерный двойной треугольник в механизме внимания: они излишне фокусируются на триггере и одновременно резко уменьшают разнообразие генерируемого текста.
2. Утечка данных через память
Backdoor-модели склонны запоминать вредоносные примеры, и эти элементы могут выявляться не из обучающего датасета, а именно из внутренней памяти модели.
3. Нечёткие триггеры
Даже частичные или приблизительные варианты триггеров могут активировать закладку, поэтому анализ таких нечётких сигналов становится частью обнаружения.
Что делает сканер на практике
Сканер работает без дополнительного обучения модели и не требует заранее известного поведения закладки. Он анализирует модельные файлы напрямую.
Последовательность действий примерно такая:
Извлечение запомненного контента из модели. Сканер собирает фрагменты, которые модель запомнила.
Анализ и выделение подозрительных частей на основе трёх сигнатур.
Оценка и ранжирование триггеров. Потенциальные подозрительные последовательности получают оценки по степени вероятности закладки.
Такой подход позволяет проверять модели широкого спектра размеров и архитектур (например, GPT-подобные), причём без вычисления градиентов, что делает сканирование более быстрым и менее ресурсоёмким, чем требовало бы переобучение.
Ограничения технологии
Microsoft подчёркивает, что это не универсальное средство от всех вредоносных вмешательств в модели. Среди ключевых ограничений:
Сканер работает только с моделями, к которым есть прямой доступ. Он не применим к закрытым (через API) моделям.
Лучшие результаты он показывает для закладок с детерминированным поведением, т.е. когда триггер всегда приводит к фиксированному ответу.
Некоторые типы атак (например, скрытая метка или фингерпринт модели) пока могут быть пропущены.
Эксперименты пока ограничены языковыми моделями. Применение к мультимодальным системам требует дополнительной работы.
Поэтому Microsoft рекомендует рассматривать эту технологию как элемент более широкой многоступенчатой стратегии по защите моделей, а не как панацею.
Более широкая стратегия безопасности
Вместе с разработкой сканера Microsoft расширяет свою Secure Development Lifecycle (SDL): подход к разработке программ с учётом AI-специфичных угроз, включая инъекции в запросы, отравление данных и другие потенциальные векторы атак.
Как объясняет один из руководителей по безопасности Microsoft, AI-системы создают гораздо больше точек входа для небезопасных данных. Это могут быть прямые запросы, расширения, плагины, обновления модели, память и внешние API. Такое множество точек усложняет традиционное разграничение доверенных зон и требует нового подхода к безопасности.
Что это даёт индустрии
Рост использования ИИ в разных сферах усиливает интерес и со стороны защитников, и со стороны злоумышленников. Из-за того, что модели становятся инфраструктурным компонентом бизнеса, технологий и сервисов, безопасность самих моделей становится критически важной. Инструменты вроде представленного сканера помогают уменьшить риски, связанные с применением открытых LLM, и создать более прозрачный и предсказуемый AI-экосистему.
Источник: HN