Новостные издания ограничивают доступ к Internet Archive из-за опасений по ИИ

Крупные медиакомпании, такие как The Guardian и The New York Times, начали пересматривать доступ к своим цифровым архивам, опасаясь, что ИИ может использовать их для обучения своих моделей.

Internet Archive сохраняет снимки веб-страниц и предоставляет их через Wayback Machine. Однако рост ИИ-ботов, собирающих данные для тренировки моделей, превращает цифровые библиотеки в потенциальную угрозу для издателей. The Guardian заметил, что их контент активно индексировался архивом, и решил ограничить доступ к статьям через API Internet Archive, оставив доступ к главным страницам и тематическим разделам.

Руководитель отдела лицензирования The Guardian Роберт Хан выразил озабоченность тем, что структурированные базы данных из архивов могут быть легко использованы ИИ-компаниями для массового скачивания контента. При этом Wayback Machine считается менее рискованной, так как данные там не структурированы.

Financial Times также блокирует любые боты, пытающиеся получить доступ к платному контенту, включая боты OpenAI, Anthropic, Perplexity и Internet Archive. Большинство статей FT остаются платными, поэтому в Wayback Machine обычно отображаются только открытые материалы.

Как отмечает профессор Майкл Нельсон, сервисы вроде Common Crawl и Internet Archive считаются добрыми проектами, но иногда страдают от действий компаний, использующих их данные в обход правил.

The Guardian предпринимает меры превентивно, сотрудничая с Internet Archive. Полного блокирования ботов пока нет, чтобы не препятствовать миссии архивного проекта - свободному доступу к информации.

New York Times пошла дальше и внесла бота archive.org_bot в файл robots.txt, полностью запрещая доступ к своему контенту через Wayback Machine. Аналогичные шаги предпринял Reddit, ограничив архивирование своих форумов и комментариев, чтобы защитить пользователей.

Основатель Internet Archive Брюстер Кейл предупреждает, что ограничения доступа могут снизить общественный доступ к историческим материалам. В то же время архив внедряет собственные системы лимитирования и фильтрации, чтобы ограничить массовую загрузку контента.

Анализ прошлых данных показывает, что Wayback Machine уже использовалась для обучения крупных языковых моделей, включая Google T5 и Meta LLaMA. В 2023 году C4 dataset показал, что домен web.archive.org занимал 187-е место по количеству включений.

Таким образом, баланс между свободой информации и защитой интеллектуальной собственности становится всё более сложным для медиакомпаний и архивов.

Источник: NiemanLab

Комментарии (0)

Войдите, чтобы оставить комментарий

Похожие статьи

Баг macOS блокирует новые сетевые соединения после 49 дней работы

В macOS найден баг, из-за которого сеть перестает работать после 49 дней аптайма. Причина переполнение 32-битного счетчика в TCP/IP-стеке. Решение пока одно - перезагрузка.

Технологии и IT-новости 2 месяца назад

Google расширяет инструменты для удаления из поиска чувствительных личных данных

Google расширил возможности инструмента "Results about you", позволяющего пользователям удалять из поиска чувствительные личные данные (номера документов, контактные данные) и упростил удаление неразрешённых изображений. Новые функции начинают работу в США с планами на международный запуск.

Технологии и IT-новости 3 месяца назад

Как ИИ влияет на обучение навыкам программирования

Исследование Anthropic показало, что искусственный интеллект не всегда помогает в обучении программированию. Джуниоры, полагающиеся на ИИ, хуже справляются с освоением нового материала, хотя ИИ может ускорить отдельные задачи.

GIMP 3.2 официально вышел: что изменилось в популярном графическом редакторе

GIMP 3.2 получил крупное обновление с поддержкой векторных слоев, улучшенным экспортом и новыми инструментами рисования. Разбираем ключевые изменения и возможности новой версии.