Новостные издания ограничивают доступ к Internet Archive из-за опасений по ИИ

Крупные медиакомпании, такие как The Guardian и The New York Times, начали пересматривать доступ к своим цифровым архивам, опасаясь, что ИИ может использовать их для обучения своих моделей.

Internet Archive сохраняет снимки веб-страниц и предоставляет их через Wayback Machine. Однако рост ИИ-ботов, собирающих данные для тренировки моделей, превращает цифровые библиотеки в потенциальную угрозу для издателей. The Guardian заметил, что их контент активно индексировался архивом, и решил ограничить доступ к статьям через API Internet Archive, оставив доступ к главным страницам и тематическим разделам.

Руководитель отдела лицензирования The Guardian Роберт Хан выразил озабоченность тем, что структурированные базы данных из архивов могут быть легко использованы ИИ-компаниями для массового скачивания контента. При этом Wayback Machine считается менее рискованной, так как данные там не структурированы.

Financial Times также блокирует любые боты, пытающиеся получить доступ к платному контенту, включая боты OpenAI, Anthropic, Perplexity и Internet Archive. Большинство статей FT остаются платными, поэтому в Wayback Machine обычно отображаются только открытые материалы.

Как отмечает профессор Майкл Нельсон, сервисы вроде Common Crawl и Internet Archive считаются добрыми проектами, но иногда страдают от действий компаний, использующих их данные в обход правил.

The Guardian предпринимает меры превентивно, сотрудничая с Internet Archive. Полного блокирования ботов пока нет, чтобы не препятствовать миссии архивного проекта - свободному доступу к информации.

New York Times пошла дальше и внесла бота archive.org_bot в файл robots.txt, полностью запрещая доступ к своему контенту через Wayback Machine. Аналогичные шаги предпринял Reddit, ограничив архивирование своих форумов и комментариев, чтобы защитить пользователей.

Основатель Internet Archive Брюстер Кейл предупреждает, что ограничения доступа могут снизить общественный доступ к историческим материалам. В то же время архив внедряет собственные системы лимитирования и фильтрации, чтобы ограничить массовую загрузку контента.

Анализ прошлых данных показывает, что Wayback Machine уже использовалась для обучения крупных языковых моделей, включая Google T5 и Meta LLaMA. В 2023 году C4 dataset показал, что домен web.archive.org занимал 187-е место по количеству включений.

Таким образом, баланс между свободой информации и защитой интеллектуальной собственности становится всё более сложным для медиакомпаний и архивов.

Источник: NiemanLab

Комментарии (0)

Войдите, чтобы оставить комментарий

Похожие статьи

Как подводная 3D-печать может изменить морское строительство

Технология подводной 3D-печати бетона, над которой работают исследователи Корнеллского университета при поддержке DARPA. Новый подход может радикально упростить морское и прибрежное строительство, снизить стоимость работ и ускорить ремонт подводной инфраструктуры.

Технологии и IT-новости 3 месяца назад

Дефицит оперативной памяти сохранится. Samsung распродает запасы, но рынок это не спасает

Дефицит оперативной памяти сохраняется, несмотря на распродажу запасов Samsung. Рост спроса со стороны ИИ и дата-центров продолжает давить на рынок и поддерживать высокие цены.

Apple начала тестировать сквозное шифрование RCS‑сообщений в iOS 26.4

Apple начала тестировать сквозное шифрование сообщений по протоколу RCS в бета‑версии iOS 26.4. Новая функция призвана усилить безопасность переписки, но пока работает только между устройствами Apple и будет доступна в будущем обновлении.

Технологии и IT-новости 2 месяца назад

LG возвращает "Wallpaper" OLED: экран толщиной всего 9 мм

LG вернула на CES 2026 ультратонкий телевизор из серии "Wallpaper" - OLED evo W6 с толщиной корпуса всего 9 мм. Новинка сочетает минималистичный дизайн с продвинутыми технологиями изображения и игровой функциональностью.