Новостные сайты ограничивают Internet Archive из-за ИИ

Крупные медиакомпании, такие как The Guardian и The New York Times, начали пересматривать доступ к своим цифровым архивам, опасаясь, что ИИ может использовать их для обучения своих моделей.

Internet Archive сохраняет снимки веб-страниц и предоставляет их через Wayback Machine. Однако рост ИИ-ботов, собирающих данные для тренировки моделей, превращает цифровые библиотеки в потенциальную угрозу для издателей. The Guardian заметил, что их контент активно индексировался архивом, и решил ограничить доступ к статьям через API Internet Archive, оставив доступ к главным страницам и тематическим разделам.

Руководитель отдела лицензирования The Guardian Роберт Хан выразил озабоченность тем, что структурированные базы данных из архивов могут быть легко использованы ИИ-компаниями для массового скачивания контента. При этом Wayback Machine считается менее рискованной, так как данные там не структурированы.

Financial Times также блокирует любые боты, пытающиеся получить доступ к платному контенту, включая боты OpenAI, Anthropic, Perplexity и Internet Archive. Большинство статей FT остаются платными, поэтому в Wayback Machine обычно отображаются только открытые материалы.

Как отмечает профессор Майкл Нельсон, сервисы вроде Common Crawl и Internet Archive считаются добрыми проектами, но иногда страдают от действий компаний, использующих их данные в обход правил.

The Guardian предпринимает меры превентивно, сотрудничая с Internet Archive. Полного блокирования ботов пока нет, чтобы не препятствовать миссии архивного проекта - свободному доступу к информации.

New York Times пошла дальше и внесла бота archive.org_bot в файл robots.txt, полностью запрещая доступ к своему контенту через Wayback Machine. Аналогичные шаги предпринял Reddit, ограничив архивирование своих форумов и комментариев, чтобы защитить пользователей.

Основатель Internet Archive Брюстер Кейл предупреждает, что ограничения доступа могут снизить общественный доступ к историческим материалам. В то же время архив внедряет собственные системы лимитирования и фильтрации, чтобы ограничить массовую загрузку контента.

Анализ прошлых данных показывает, что Wayback Machine уже использовалась для обучения крупных языковых моделей, включая Google T5 и Meta LLaMA. В 2023 году C4 dataset показал, что домен web.archive.org занимал 187-е место по количеству включений.

Таким образом, баланс между свободой информации и защитой интеллектуальной собственности становится всё более сложным для медиакомпаний и архивов.

Источник: NiemanLab

Новостные издания ограничивают доступ к Internet Archive из-за опасений по ИИ

Похожие статьи

Обнаружены 175 000 открытых AI-серверов Ollama

Laravel Cloud научился отдавать Markdown специально для ИИ-агентов

Tinder использует ИИ для борьбы с усталостью от свайпов

Vite ускоряет сборку в 10–30 раз с Rolldown на Rust