Новостные издания ограничивают доступ к Internet Archive из-за опасений по ИИ

Крупные медиакомпании, такие как The Guardian и The New York Times, начали пересматривать доступ к своим цифровым архивам, опасаясь, что ИИ может использовать их для обучения своих моделей.

Internet Archive сохраняет снимки веб-страниц и предоставляет их через Wayback Machine. Однако рост ИИ-ботов, собирающих данные для тренировки моделей, превращает цифровые библиотеки в потенциальную угрозу для издателей. The Guardian заметил, что их контент активно индексировался архивом, и решил ограничить доступ к статьям через API Internet Archive, оставив доступ к главным страницам и тематическим разделам.

Руководитель отдела лицензирования The Guardian Роберт Хан выразил озабоченность тем, что структурированные базы данных из архивов могут быть легко использованы ИИ-компаниями для массового скачивания контента. При этом Wayback Machine считается менее рискованной, так как данные там не структурированы.

Financial Times также блокирует любые боты, пытающиеся получить доступ к платному контенту, включая боты OpenAI, Anthropic, Perplexity и Internet Archive. Большинство статей FT остаются платными, поэтому в Wayback Machine обычно отображаются только открытые материалы.

Как отмечает профессор Майкл Нельсон, сервисы вроде Common Crawl и Internet Archive считаются добрыми проектами, но иногда страдают от действий компаний, использующих их данные в обход правил.

The Guardian предпринимает меры превентивно, сотрудничая с Internet Archive. Полного блокирования ботов пока нет, чтобы не препятствовать миссии архивного проекта - свободному доступу к информации.

New York Times пошла дальше и внесла бота archive.org_bot в файл robots.txt, полностью запрещая доступ к своему контенту через Wayback Machine. Аналогичные шаги предпринял Reddit, ограничив архивирование своих форумов и комментариев, чтобы защитить пользователей.

Основатель Internet Archive Брюстер Кейл предупреждает, что ограничения доступа могут снизить общественный доступ к историческим материалам. В то же время архив внедряет собственные системы лимитирования и фильтрации, чтобы ограничить массовую загрузку контента.

Анализ прошлых данных показывает, что Wayback Machine уже использовалась для обучения крупных языковых моделей, включая Google T5 и Meta LLaMA. В 2023 году C4 dataset показал, что домен web.archive.org занимал 187-е место по количеству включений.

Таким образом, баланс между свободой информации и защитой интеллектуальной собственности становится всё более сложным для медиакомпаний и архивов.

Источник: NiemanLab

Похожие статьи

Рекомендательные технологии Подробнее

Laravel Cloud научился отдавать Markdown специально для ИИ-агентов

Платформа Laravel Cloud получила новую функцию "Markdown for Agents", которая позволяет отдавать страницы в Markdown-формате специально для ИИ-агентов. Это делает контент легче для анализа, экономит токены и ускоряет работу автоматических систем.

Технологии и IT-новости 4 месяца назад

Tinder использует ИИ для борьбы с усталостью от свайпов

Tinder внедряет инструменты на базе искусственного интеллекта, чтобы снизить усталость пользователей от бесконечного свайпинга и вернуть интерес к онлайн-знакомствам. Компания делает ставку на персонализированный подбор и более осмысленные совпадения.