Использование компаниями ИИ архивных новостных материалов может быть серьезным нарушением авторского права, особенно на фоне текущих исков к OpenAI и Perplexity.
Около 245 мировых новостных организаций в девяти странах пытаются заблокировать краулеры Internet Archive. Это автоматизированные программные боты, которые собирают, показывают и архивируют материалы с веб-страниц в общедоступном интерфейсе Internet Archive, сервисе Wayback Machine.
Архив насчитывает более одного триллиона веб-страниц, начиная с 1996 года, что делает его одним из крупнейших в мире общественных ресурсов коллективной информации. В него входят, в частности, старые публикации крупных медиакомпаний, таких как CNN, The New York Times, The Guardian и USA Today.
Эти веб-страницы используются для самых разных целей, например как первоисточники для историков или чтобы доказать, какие изменения вносились уже после публикации.
Теперь несколько новостных организаций добиваются блокировки краулеров, поскольку компании, работающие с ИИ, используют содержимое архива для обучения крупных языковых моделей (LLM), не выплачивая справедливого вознаграждения и не получая разрешения.
Согласно анализу компании Originality AI, специализирующейся на выявлении текстов, созданных ИИ, более 20 крупных медиахолдингов уже блокируют ia_archiverbot — основной веб-краулер, который Internet Archive использует для Wayback Machine.
При этом по меньшей мере один из четырёх краулеров архива заблокирован на 241 новостном сайте по всему миру. Значительная часть этих заблокированных сайтов принадлежит компании USA Today Co., крупнейшему в США издателю газет. Это означает, что сотни локальных изданий фактически исчезают из исторических архивов.
Чем грозит использование архивных материалов для обучения ИИ
Архивные новостные материалы предоставляют огромные объёмы качественных текстов и изображений, на которых можно обучать крупные модели ИИ, чтобы они писали более по-человечески. Доступ к этим данным возможен по URL и через интерфейс API, который позволяет разным программам обмениваться запросами и данными, выступая мостом между системами.
Это делает доступ к архивным данным и обучение моделей ещё проще для ИИ-компаний.
Ещё одно преимущество состоит в том, что содержимое Internet Archive уже структурировано, снабжено указанием авторства и датировано.
Значительная часть данных Internet Archive уже обнаружена в ключевых наборах данных, используемых для обучения ИИ. Однако для новостных организаций это серьёзная проблема: многие из них уже подают иски против таких компаний, как Perplexity и OpenAI, подозревая их в нарушении авторских прав.
«Проблема в том, что материалы Times в Internet Archive используются компаниями, работающими с ИИ, в нарушение законов об авторском праве, и это позволяет им напрямую конкурировать с нами», — заявил представитель газеты The New York Times Грэхэм Джеймс, его слова приводит издание The Next Web.
«Times вкладывает колоссальные ресурсы в создание оригинальной журналистики, и эта работа не должна использоваться без нашего разрешения».
Другие издания, например The Guardian, выбрали более осторожную тактику — они ограничили, но не полностью заблокировали доступ архива к своим материалам.
В Internet Archive считают себя лишь «побочным ущербом»
Директор Wayback Machine Марк Грэхэм утверждает, что их сервис стал лишь «побочным ущербом», а настоящие виновники — это компании, занимающиеся ИИ и получающие доступ к старым материалам через интерфейсы архива.
Тем не менее сам архив уже предпринял ряд шагов, чтобы ограничить такой доступ. В частности, он блокирует массовые скачивания некоторых материалов и в отдельных случаях ограничивает автоматический сбор данных.
Грэхэм подчёркивает, что архив играет ключевую роль в сохранении материалов. Без него статьи, которые не были заархивированы, можно было бы редактировать без разрешения и без какой-либо ответственности. Речь может идти о чём угодно — от изменения или удаления цитат и исправления ошибок до подправленных заявлений и официальных комментариев.
Сейчас эти изменения фиксируются с помощью Wayback Machine.
Это побудило некоторые медиакомпании искать совместные решения с Internet Archive — договариваться о приемлемых компромиссах или обходных вариантах, предполагающих ограничение доступа, а не полную блокировку.
Похожей позиции придерживается и некоммерная правозащитная организация Fight for the Future, выступающая за цифровые права. Она запустила петицию против блокировки архива, которую уже подписали 100 действующих журналистов. Это особенно актуально в условиях, когда общественные архивы и трактовка истории становятся предметом всё более ожесточённых споров.