Microsoft создала сканер для поиска бэкдоров в открытых языковых моделях

Компания Microsoft на этой неделе представила лёгкий инструмент-сканер, который, по её словам, способен обнаруживать скрытые вредоносные backdoors в открытых больших языковых моделях (LLM). Это важный шаг к повышению доверия к системам искусственного интеллекта и снижению рисков, связанных с их использованием.

Почему это важно

Современные языковые модели вроде GPT могут подвергаться скрытому вмешательству на этапе обучения или дообучения. Злоумышленники способны внедрить в веса модели потайные реакции, которые почти не проявляются в обычной работе, но активируются при подаче определённой триггерной фразы. Такая модель на вид работает нормально, но при узком наборе условий начинает выполнять скрытые инструкции.

Tакой тип атаки называют отравлением модели (model poisoning): вредоносное поведение зашивается прямо в параметры, и модель может функционировать как спящий агент, оставаясь безобидной в большинстве ситуаций, но проявляя вредоносность при обнаружении триггера.

Как работает сканер

Microsoft Security Team описывает свой подход так: сканер опирается на три наблюдаемых сигнала, которые помогают надёжно определить, есть ли в модели скрытый механизм, и при этом держать низкий уровень ложных срабатываний.

1. Особая модель внимания

Когда в запросе появляется триггерная фраза, зараженные модели демонстрируют характерный двойной треугольник в механизме внимания: они излишне фокусируются на триггере и одновременно резко уменьшают разнообразие генерируемого текста.

2. Утечка данных через память

Backdoor-модели склонны запоминать вредоносные примеры, и эти элементы могут выявляться не из обучающего датасета, а именно из внутренней памяти модели.

3. Нечёткие триггеры

Даже частичные или приблизительные варианты триггеров могут активировать закладку, поэтому анализ таких нечётких сигналов становится частью обнаружения.

Что делает сканер на практике

Сканер работает без дополнительного обучения модели и не требует заранее известного поведения закладки. Он анализирует модельные файлы напрямую.

Последовательность действий примерно такая:

  1. Извлечение запомненного контента из модели. Сканер собирает фрагменты, которые модель запомнила.

  2. Анализ и выделение подозрительных частей на основе трёх сигнатур.

  3. Оценка и ранжирование триггеров. Потенциальные подозрительные последовательности получают оценки по степени вероятности закладки.

Такой подход позволяет проверять модели широкого спектра размеров и архитектур (например, GPT-подобные), причём без вычисления градиентов, что делает сканирование более быстрым и менее ресурсоёмким, чем требовало бы переобучение.

Ограничения технологии

Microsoft подчёркивает, что это не универсальное средство от всех вредоносных вмешательств в модели. Среди ключевых ограничений:

  • Сканер работает только с моделями, к которым есть прямой доступ. Он не применим к закрытым (через API) моделям.

  • Лучшие результаты он показывает для закладок с детерминированным поведением, т.е. когда триггер всегда приводит к фиксированному ответу.

  • Некоторые типы атак (например, скрытая метка или фингерпринт модели) пока могут быть пропущены.

  • Эксперименты пока ограничены языковыми моделями. Применение к мультимодальным системам требует дополнительной работы.

Поэтому Microsoft рекомендует рассматривать эту технологию как элемент более широкой многоступенчатой стратегии по защите моделей, а не как панацею.

Более широкая стратегия безопасности

Вместе с разработкой сканера Microsoft расширяет свою Secure Development Lifecycle (SDL): подход к разработке программ с учётом AI-специфичных угроз, включая инъекции в запросы, отравление данных и другие потенциальные векторы атак.

Как объясняет один из руководителей по безопасности Microsoft, AI-системы создают гораздо больше точек входа для небезопасных данных. Это могут быть прямые запросы, расширения, плагины, обновления модели, память и внешние API. Такое множество точек усложняет традиционное разграничение доверенных зон и требует нового подхода к безопасности.

Что это даёт индустрии

Рост использования ИИ в разных сферах усиливает интерес и со стороны защитников, и со стороны злоумышленников. Из-за того, что модели становятся инфраструктурным компонентом бизнеса, технологий и сервисов, безопасность самих моделей становится критически важной. Инструменты вроде представленного сканера помогают уменьшить риски, связанные с применением открытых LLM, и создать более прозрачный и предсказуемый AI-экосистему.

Источник: HN

Комментарии (0)

Войдите, чтобы оставить комментарий

Похожие статьи

Кибербезопасность 1 месяц назад

Как искусственный интеллект ускорил взлом AWS-среды - за 8 минут

Атака на среду AWS в ноябре 2025 года показала, как злоумышленник с помощью AI и LLM-инструментов получил полный административный доступ менее чем за восемь минут. Ошибки конфигурации облака и использование генеративных моделей ускорили атаку и подчеркнули новые угрозы для облачной безопасности.

Кибербезопасность 1 месяц назад

Anthropic представила Claude Code Security - ИИ-анализатор уязвимостей в коде

Anthropic представила новый инструмент безопасности для разработчиков - Claude Code Security. Он анализирует код на уязвимости с помощью ИИ, оценивает риски и предлагает исправления под контролем человека.

Кибербезопасность 1 неделю назад

Уязвимость в Ubuntu позволяет получить root-доступ через очистку системы

В Ubuntu обнаружена критическая уязвимость CVE-2026-3888, позволяющая получить root-доступ через механизм очистки временных файлов. Разбираем, как работает атака и какие системы под угрозой.

Кибербезопасность 1 месяц назад

Новое мобильное шпионское ПО ZeroDayRAT позволяет следить в реальном времени и красть данные

Обзор нового опасного шпионского ПО ZeroDayRAT, распространяемого через Telegram, с описанием его возможностей, способов распространения и рекомендациями по защите.