Функция памяти ChatGPT усиливает уязвимости prompt-инъекций

Недавние улучшения ChatGPT, среди которых долгосрочная память и интеграция с внешними сервисами, открывают новые пути для злоумышленников. Исследователи из компании Radware описали цепочку атак под названием ZombieAgent, в которой эти функции используются для более стойких и масштабных атак через непрямые внедрения подсказок (indirect prompt injection, IPI).

Что такое prompt-инъекция и почему это всё ещё работает

Под prompt-инъекцией понимаются техники, с помощью которых атакующий скрытно вставляет вредоносные инструкции в текст, который обрабатывает ИИ-ассистент. ChatGPT по-прежнему уязвим к давно известным методам: он легко выполняет команды, замаскированные в невидимом или малозаметном тексте, даже если пользователь этого не замечает.

В эксперименте Radware злоумышленник отправляет пользователю электронное письмо с едва заметной командой для ChatGPT. Если затем пользователь попросит ИИ обработать свою почту, например, суммировать непрочитанные сообщения, скрытая инструкция будет передана на сервера OpenAI и выполнена.

Как память делает атаки устойчивыми

Ключевым элементом ZombieAgent является возможность ChatGPT запоминать детали взаимодействия с пользователем. Современный ИИ может сохранять предпочтения, имена и другие персональные заметки, чтобы улучшить опыт. Но если в память попасть вредоносной инструкции, эта команда будет выполняться ChatGPT постоянно при каждом новом запросе пользователя.

В одной из атак Radware прикрепили файл к письму, который «посадил» вредоносное указание в память ChatGPT. После этого при каждом взаимодействии ИИ сначала обращался к этой памяти и выполнял вредоносные инструкции, например, собирал и перехватывал конфиденциальную информацию из запросов пользователя.

Почему это опасно

Такие атаки особенно опасны потому, что:

  • Они не требуют традиционного взлома: достаточно отправить письмо или разместить вредоносный текст на сайте.

  • Команды могут сохраняться в памяти надолго и быть невидимы пользователю.

  • ChatGPT интегрируется с внешними сервисами (почтой, календарями, файловыми хранилищами), расширяя векторы атаки.

Исследователи даже предположили, что подобные подсказки можно использовать как «червя», который автоматически распространяется через связанные сервисы у разных жертв.

Что делает OpenAI

После публикации отчёта OpenAI внесла изменения в политику обработки URL: ChatGPT теперь может взаимодействовать только с ссылками, явно введёнными пользователем или найденными в проверенных индексах, исключая домены злоумышленников. Это блокирует часть атак по тихому выводу данных.

Тем не менее эксперты считают, что такие частичные исправления не решение структурной проблемы. По их мнению, модели должны уметь определять, откуда пришла подсказка: непосредственно от пользователя или из внешнего текста, найденного через браузер, документ или почту.

Что нужно изменить

Специалисты предлагают:

  • Разделять уровни доверия для запросов пользователя и прочитанного текста.

  • Обучать ИИ распознавать истинные намерения пользователя, например, модель должна замечать, если выполняемые действия выходят за рамки исходной задачи.

Один из исследователей сравнил ИИ с «малышом с огромным мозгом»: он очень наивен, но обладает доступом к большим объёмам данных, поэтому достаточно «убедить» его сделать что-то неподходящее, и он это сделает.

Источник: DarkReading

Комментарии (0)

Войдите, чтобы оставить комментарий

Похожие статьи

Кибербезопасность 1 месяц назад

Аналитики предупреждают о рисках кибербезопасности в гуманоидных роботах

Гуманоидные роботы быстро входят в нашу повседневность, но вместе с этим растут и киберриски. Производители экономят на безопасности, устройства передают данные без ведома пользователей, а взлом может дать злоумышленникам контроль над физическими действиями робота. Разбираем ключевые угрозы и то, что нужно менять в индустрии уже сейчас.

43 0 1 мин
Кибербезопасность 1 месяц назад

Популярное расширение Chrome перехватывало AI-чаты пользователей

Популярное расширение Google Chrome с пометкой "Рекомендованно" оказалось замешано в скрытом сборе AI-чатов пользователей. Расследование показало, что расширение перехватывало запросы и ответы из ChatGPT, Claude, Gemini и других сервисов, отправляя их на сторонние серверы под видом аналитики.

60 0 1 мин
Кибербезопасность 1 неделю назад

Google предупреждает о активной эксплуатации уязвимости WinRAR

Google предупредил о продолжающейся эксплуатации давно исправленной критической уязвимости WinRAR (CVE-2025-8088) группами хакеров и государственными акторами. Уязвимость позволяет получать доступ к Windows-системам через специально созданные архивы, а обновление WinRAR 7.13 закрывает проблему.

19 0 1 мин
Кибербезопасность 11 часов назад

Критические уязвимости в Google Looker: удалённое выполнение кода и утечка данных

Две критические уязвимости в платформе Google Looker, которые могли позволить злоумышленникам получить доступ к внутренним данным и выполнить удалённый код. Описаны механизмы атак, потенциальные риски для облачных развёртываний и рекомендации по обновлению и защите.

10 0 1 мин