Крупные медиакомпании, такие как The Guardian и The New York Times, начали пересматривать доступ к своим цифровым архивам, опасаясь, что ИИ может использовать их для обучения своих моделей.
Internet Archive сохраняет снимки веб-страниц и предоставляет их через Wayback Machine. Однако рост ИИ-ботов, собирающих данные для тренировки моделей, превращает цифровые библиотеки в потенциальную угрозу для издателей. The Guardian заметил, что их контент активно индексировался архивом, и решил ограничить доступ к статьям через API Internet Archive, оставив доступ к главным страницам и тематическим разделам.
Руководитель отдела лицензирования The Guardian Роберт Хан выразил озабоченность тем, что структурированные базы данных из архивов могут быть легко использованы ИИ-компаниями для массового скачивания контента. При этом Wayback Machine считается менее рискованной, так как данные там не структурированы.
Financial Times также блокирует любые боты, пытающиеся получить доступ к платному контенту, включая боты OpenAI, Anthropic, Perplexity и Internet Archive. Большинство статей FT остаются платными, поэтому в Wayback Machine обычно отображаются только открытые материалы.
Как отмечает профессор Майкл Нельсон, сервисы вроде Common Crawl и Internet Archive считаются добрыми проектами, но иногда страдают от действий компаний, использующих их данные в обход правил.
The Guardian предпринимает меры превентивно, сотрудничая с Internet Archive. Полного блокирования ботов пока нет, чтобы не препятствовать миссии архивного проекта - свободному доступу к информации.
New York Times пошла дальше и внесла бота archive.org_bot в файл robots.txt, полностью запрещая доступ к своему контенту через Wayback Machine. Аналогичные шаги предпринял Reddit, ограничив архивирование своих форумов и комментариев, чтобы защитить пользователей.
Основатель Internet Archive Брюстер Кейл предупреждает, что ограничения доступа могут снизить общественный доступ к историческим материалам. В то же время архив внедряет собственные системы лимитирования и фильтрации, чтобы ограничить массовую загрузку контента.
Анализ прошлых данных показывает, что Wayback Machine уже использовалась для обучения крупных языковых моделей, включая Google T5 и Meta LLaMA. В 2023 году C4 dataset показал, что домен web.archive.org занимал 187-е место по количеству включений.
Таким образом, баланс между свободой информации и защитой интеллектуальной собственности становится всё более сложным для медиакомпаний и архивов.
Источник: NiemanLab