Anthropic выпустила Claude Fable 5 с киберзащитой

Компания Anthropic представила Claude Fable 5 — самую производительную модель искусственного интеллекта в своей линейке. Вместе с этим компания применила необычный подход: одна и та же модель была выпущена в двух вариантах, различающихся не возможностями, а уровнем защитных ограничений.

Публично доступной стала Claude Fable 5. Ее аналог Claude Mythos 5 использует ту же базовую модель, но без ряда кибербезопасностных ограничений. Доступ к ней получили только проверенные специалисты по информационной безопасности и операторы критически важной инфраструктуры.

В Anthropic называют Mythos 5 самой мощной моделью для задач кибербезопасности.

Главное различие между версиями заключается в обработке потенциально опасных запросов. Claude Fable 5 перенаправляет запросы, связанные с кибербезопасностью, биологией, химией и дистилляцией моделей, на менее мощную Claude Opus 4.8. В Mythos 5 возможности в области кибербезопасности остаются доступны для одобренных пользователей.

Стоимость обеих моделей составляет 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов. Это менее половины цены предыдущей версии Mythos Preview. Claude Fable 5 уже доступна через Claude API.

До 22 июня модель входит в подписки Pro, Max, Team и Enterprise без дополнительной платы, после чего будет использовать систему кредитов потребления.

Как работают защитные классификаторы Fable 5

Разделение моделей связано с тем, что модели класса Mythos способны искать и эксплуатировать уязвимости программного обеспечения на уровне, который, по мнению Anthropic, может существенно усилить возможности злоумышленников.

Для контроля используются специальные классификаторы — отдельные ИИ-системы, отслеживающие попытки злоупотребления и обхода ограничений. Если запрос попадает под действие такого классификатора, Fable 5 не блокирует его полностью. Вместо этого обработка передается модели Opus 4.8, а пользователь получает уведомление о перенаправлении.

Отдельной категорией является дистилляция моделей — процесс извлечения возможностей одной модели для обучения другой. Anthropic ограничивает подобные запросы, чтобы передовые возможности ИИ не распространялись без предусмотренных механизмов безопасности.

Защита от вредоносных киберопераций

Классификатор кибербезопасности охватывает широкий спектр действий. Он предназначен для ограничения не только разработки эксплойтов, но и других наступательных операций: разведки, поиска целей, горизонтального перемещения по сети и других этапов реальных атак.

Во время внутренних испытаний, где Fable 5 была настроена на блокировку подобных запросов без переключения на резервную модель и без попыток обхода ограничений, классификаторы полностью предотвратили выполнение подобных задач.

Один из внешних партнеров Anthropic сообщил, что Fable 5 не выполнила ни одного вредоносного одношагового запроса, связанного с планированием атак, разработкой эксплойтов или обходом защит. Модель также успешно противостояла 30 различным публично известным методам джейлбрейка.

При этом существует риск ложных срабатываний. Для ускорения запуска компания выбрала достаточно консервативные настройки. В результате под ограничения иногда попадают и безопасные запросы.

По данным Anthropic, механизм переключения на Opus 4.8 срабатывает менее чем в 5% пользовательских сессий. Это означает, что более чем в 95% случаев Fable 5 работает так же, как неограниченная версия Mythos 5. Компания планирует постепенно снижать количество ложных срабатываний после запуска.

В ходе внешней программы поиска уязвимостей, продолжавшейся более 1000 часов, исследователям не удалось создать универсальный джейлбрейк, который полностью отключал бы защитные механизмы. Внешние команды тестировщиков также не смогли добиться подобного результата при длительных агентных сценариях.

Однако Anthropic отмечает одно исключение. Специалисты британского AI Security Institute смогли добиться прогресса в направлении универсального джейлбрейка за короткий период тестирования. Компания признает, что полностью исключить возможность подобных обходов, вероятно, невозможно. Цель состоит в том, чтобы сделать их создание достаточно сложным и дорогостоящим для своевременного обнаружения.

Почему возможности модели считаются потенциальной угрозой

Причины столь осторожного подхода стали очевидны еще в апреле, когда Anthropic предоставила ограниченному кругу организаций доступ к Claude Mythos Preview в рамках программы Project Glasswing.

Согласно отчету внутренней red team-команды, во время испытаний модель находила и эксплуатировала уязвимости нулевого дня во всех основных операционных системах и популярных веб-браузерах по запросу пользователя.

Самой старой найденной уязвимостью оказался дефект в OpenBSD, существовавший 27 лет. Кроме того, модель самостоятельно создала эксплойт удаленного выполнения кода для NFS-сервера FreeBSD на основе 17-летней уязвимости, зарегистрированной как CVE-2026-4747.

Anthropic утверждает, что результатом эксплуатации могла стать полная компрометация системы с root-доступом для неавторизованного атакующего через интернет. В описании Национальной базы данных уязвимостей США оценка сформулирована осторожнее, однако также указывает на возможность выполнения кода ядра при определенных условиях.

По словам компании, подобные способности не обучались напрямую. Они появились как побочный эффект улучшений в генерации кода, логическом мышлении и автономности модели. Именно эти качества одновременно повышают эффективность поиска и исправления уязвимостей.

Исследователи Anthropic предупреждают, что защитные механизмы, основанные главным образом на сложности и трудоемкости эксплуатации, становятся значительно менее эффективными, когда модель способна автоматически выполнять большое количество однотипных действий.

При этом фундаментальные механизмы защиты, такие как KASLR и W^X, по-прежнему сохраняют эффективность и увеличивают стоимость атак.

Anthropic заявляет, что Mythos 5 сохраняет возможности Mythos Preview и в ряде задач даже превосходит ее.

Проблемы защитников

Практическая польза подобных моделей уже проявилась в первые недели работы Project Glasswing.

Anthropic совместно примерно с 50 партнерами обнаружила более десяти тысяч уязвимостей высокой и критической степени опасности в программном обеспечении, имеющем системное значение.

Cloudflare выявила около 2000 ошибок, из которых 400 получили высокий или критический уровень опасности.

Mozilla обнаружила и устранила 271 уязвимость в Firefox 150. Для сравнения, при использовании более старой модели Opus 4.6 в Firefox 148 было найдено более чем в десять раз меньше подобных проблем.

По словам Anthropic, аналогичная ситуация наблюдается и у других поставщиков программного обеспечения, которые начали выпускать значительно более крупные обновления безопасности.

Однако быстрое обнаружение уязвимостей создает новую проблему. Поиск ошибок становится дешевым и быстрым процессом, тогда как проверка, анализ и исправление по-прежнему требуют человеческого участия.

Компания сообщает, что многие сопровождающие проекты с открытым исходным кодом уже перегружены большим количеством низкокачественных отчетов, созданных ИИ. Некоторые из них даже просили замедлить процесс раскрытия найденных уязвимостей, поскольку не успевают выпускать исправления.

Согласно данным Glasswing, устранение одной серьезной или критической уязвимости занимает в среднем около двух недель.

Таким образом, основным узким местом становится не поиск проблем, а скорость выпуска исправлений. Именно промежуток между публикацией информации об уязвимости и массовым распространением патча остается наиболее привлекательным периодом для злоумышленников.

В рамках экспериментов с уже опубликованными уязвимостями модель Mythos Preview смогла создавать рабочие Linux-эксплойты повышения привилегий менее чем за сутки, используя только описание CVE и выпущенный патч. Стоимость вычислений для каждой такой задачи составляла несколько тысяч долларов или меньше.

Что это означает для специалистов по безопасности

Anthropic рекомендует исходить из того, что критическая уязвимость может превратиться в готовый эксплойт уже через несколько часов после публикации, а не через недели, как это происходило раньше.

Поэтому особое внимание следует уделять автоматическому обновлению интернет-доступных систем и оперативному внедрению обновлений зависимостей, содержащих исправления CVE.

Многофакторная аутентификация и полноценное журналирование событий остаются базовыми элементами защиты, позволяющими снизить последствия даже в случае пропущенного обновления.

Компания также открыла программу Cyber Verification Program, в рамках которой проверенные специалисты по безопасности могут использовать модели Anthropic для легитимных наступательных исследований без киберограничений.

Новые правила хранения данных

Anthropic также изменила политику обработки данных для моделей класса Mythos.

Для всего трафика, связанного с Fable 5, Mythos 5 и будущими моделями аналогичного уровня, вводится обязательное хранение данных в течение 30 дней. Требование распространяется как на собственные сервисы компании, так и на сторонние платформы, использующие эти модели.

Компания заявляет, что данные не будут использоваться для обучения моделей или иных целей, не связанных с безопасностью. Все случаи доступа сотрудников к данным будут регистрироваться. По истечении 30 дней информация будет удаляться, если только более длительное хранение не требуется для расследования инцидентов или выполнения юридических обязательств.

По словам Anthropic, такая мера необходима для выявления новых типов атак и джейлбрейков, которые могут проявляться только при анализе длинных последовательностей запросов.

Организациям с жесткими требованиями к обработке данных рекомендуется учитывать этот период хранения перед передачей чувствительной информации в модели данного класса.

В дальнейшем Anthropic планирует расширять доступ к Mythos 5 через программу доверенного доступа. Кроме того, после увеличения вычислительных мощностей компания рассчитывает вернуть Fable 5 в обычные подписочные планы без дополнительной оплаты за кредиты использования.

Запуск Fable 5 вновь поднимает вопрос, который Anthropic активно обсуждает с апреля: аналогичные по возможностям модели вскоре появятся и у других разработчиков, и далеко не все из них будут оснащены столь же строгими механизмами контроля. Преимущество, которое Project Glasswing пытается дать защитникам, окажется полезным только в том случае, если вся отрасль сможет эффективно воспользоваться этим временем.

Источник: HN

Anthropic выпустила Claude Fable 5 — свою самую мощную ИИ-модель с встроенными киберзащитными механизмами

Как работают защитные классификаторы Fable 5

Защита от вредоносных киберопераций

Почему возможности модели считаются потенциальной угрозой

Проблемы защитников

Что это означает для специалистов по безопасности

Новые правила хранения данных

Похожие статьи

Fragnesia: новая уязвимость повышения привилегий в Linux

Как собрать MCP-сервер на Python

Caterpillar внедряет ИИ в строительную технику вместе с Nvidia

Anthropic нашла 22 уязвимости в Firefox с помощью ИИ Claude