Твои данные - это наши данные или можно ли защитить данные от скрапинга искусственным интеллектом

Текущий бум интереса к искусственному интеллекту (AI), помимо надежд на оптимизацию и упрощение рутинных процессов и всеобщей паники из-за риска потерять работу, также поднял на поверхность вопрос использования данных для обучения AI без согласия правообладателя и возможности их защиты владельцем  таких данных. Ниже наши юристы Камаль Терехов и Екатерина Ероховец расскажут об этом более подробно.

Не секрет, что для обучения AI используются, в том числе общедоступные данные – тексты, изображения, видео и другой контент. Наиболее известные текстовые AI: СhatGPT, Google Bard, Claude 2, прямо заявляют, что используют для обучения как открытые данные, так и лицензируемые датасеты.

Какие данные используются для обучения AI?

Условно их можно разделить на 3 группы:

  1. информация, которую предоставляют сами пользователи и правообладателями которой они являются ( содержание промптов, прикрепляемых  файлов и др.);
  2. лицензируемые датасеты от третьих лиц, которые AI находит самостоятельно (к примеру, набор стоковых изображений, архив газетных статей);
  3. общедоступная информация, обычно получаемая через скрейпинг веб-ресурсов, которую AI также находит сам.  

В случае с первой группой данных вопрос стоит преимущественно в сборе и обработке персональных данных, а также их передаче, если мы говорим о продукте, использующем API сторонней AI. Яркий пример – приложения для обработки изображений. При работе с ними пользователь загружает свои фото, а приложение обрабатывает их с помощью подключенной к нему AI, допустим Dall-e или Stable Diffusion. 

Использование второй группы данных касается обработки объектов интеллектуальной собственности.  Как правило, речь идет об объектах авторского права  (тексты, изображения, музыка). Допустимость обучения AI на базе таких данных на текущий момент сотрясает судебные залы, уже есть первые результаты, но пока однозначного регулирования по этому вопросу нет. 

Касательно вопросов, связанных с обработкой персональных данных и использованием объектов авторского права для обучения AI мы расскажем подробнее в следующих материалах. 

Наиболее сложный вопрос связан с обработкой третьей группы данных – она охватывает больше всего категорий данных:  это могут быть как объекты интеллектуальной собственности, так и персональные данные, а также non-personal data. Последняя категория охватывает информацию, которая не является ни персональными данными, ни объектами интеллектуальной собственности. К примеру, сайт с рецептами для готовки; с технической информацией; объектами, находящимися в общественном достоянии, или историческими фактами. Касательно non-personal data, в отличие от первых двух категорий данных, которые имеют применимые правовые акты, non-personal data пока регулируется фрагментарно, хотя в ЕС предпринимаются попытки принятия общего регламента.

Насколько легально использовать чужие данные для обучения AI без согласия правообладателя?

Объекты авторского права

Вопрос легальности тут остается открытым.  Вот ключевые аргументы, которыми пока что обосновывается легальность обучения AI на основе чужих данных:

  1. обучение AI попадает под text and data mining исключение.  Суть этого исключения в том, что разрешается использование объектов авторского права «для автоматизированной аналитики текста и данных в цифровой форме с целью получения информации, включающей, но не ограничивающейся закономерностями, тенденциями и корреляциями». Это правило уже действует в ЕС (ст. 2(2), ст. 3, ст. 4 DSM) и позволяет использовать открытые данные без разрешения правообладателя. Причем text and data mining исключение распространяется как на частные компании, так и на исследовательские организации и учреждения культурного наследия. 
     
  2. использование объектов авторского права в процессе обучения AI является частью технологического процесса, что является исключением (ст. 5.1 Infosoc) и позволяет использовать данные без согласия правообладателя. Так как для обучения AI сами по себе охраняемые произведения не копируются, а используются кратковременно для цели обучения тенденциям и закономерностям, то есть мнение, что это исключение также применяется.     
     
  3. обучение AI происходит для научных и исследовательских целей, что покрывается соответствующим исключением (ст. 5.3 Infosoc).

Акцентируем внимание, что вопрос применимости вышеуказанных исключений к AI остается открытым и существует противоположное мнение. 

Non-personal data

В отношении non-personal data ситуация несколько сложнее в силу отсутствия прямого регулирования. В определенных случаях, к таким данным может применяться правовой режим или баз данных (database), или набора данных (dataset), то есть отдельно друг друга данные не охраняются, но могут охраняться в совокупности. Как база данных охрана действует, если при ее создании оригинально проявляются творческие способности автора, делая свободный и творческий выбор (ст. 3.1 Директивы 96/9/EC, Дело Football Dataco C‑403/08 i C‑429/08). К примеру, база данных, содержащая аннотации, рецензии, информацию об актерах и т.д. к фильмам, может быть защищена авторским правом. 

Однако для обычной IT компании, полагаем, наиболее применима охрана, как набора данных, то есть для формирования набора данных создатель внес существенные инвестиции на сбор, верификацию и презентацию набора данных. В таком случае создатель вправе запрещать несанкционированное использование своего набора данных (ст. 7.1. Директивы 96/9/EC).

Что можно сделать правообладателям, чтобы защитить свои данные от использования их искусственным интеллектом?

У владельца сайта остается возможность урегулировать использование своих данных или данных своих пользователей на платформе через условия пользования сайтом, проще говоря, в тексте Terms of service / Terms of Use / Пользовательского соглашения. К примеру, по такому пути пошел Reddit, внеся оговорку:

“Except as expressly permitted by this section, no other rights or licenses are granted or implied, including any right to use User Content for other purposes, such as for training a machine learning or AI model, without the express permission of rightsholders in the applicable User Content.”

"За исключением случаев, явно разрешенных настоящим разделом, не предоставляются и не подразумеваются никакие другие права или лицензии, включая право использования пользовательского контента для других целей, таких, как обучение модели машинного обучения или искусственного интеллекта, без явного разрешения правообладателей соответствующего пользовательского контента."

Аналогичным образом пошел New York Times, четко исключив использование своих данных для обучения AI:

“Non-commercial use does not include the use of Content without prior written consent from The New York Times Company in connection with: (1) the development of any software program, including, but not limited to, training a machine learning or artificial intelligence (AI) system; or (2) providing archived or cached data sets containing Content to another person or entity.”

"Некоммерческое использование не включает в себя использование Контента без предварительного письменного согласия компании The New York Times в связи с: (1) разработкой любой программы, включая, но не ограничиваясь, обучение системы машинного обучения или искусственного интеллекта (ИИ); или (2) предоставлением архивированных или кэшированных наборов данных, содержащих Контент, другому лицу или организации."

Установление подобных ограничений является допустимым (Дело Ryanair C‑30/14), хотя и не всегда возможно. К примеру, применение вышеописанного text and data mining исключения владелец сайта можно ограничить только в отношении частных компаний – исследовательские организации и учреждения культурного наследия всё равно сохраняют права на майнинг (ст. 7 DSM). 

Самый главный вопрос – технический. Допустим, в текст условий обслуживания включена оговорка о запрете использования данных для обучения AI, но поймет ли робот, копирующий эту информацию, что данные с этого конкретного сайта нельзя использовать. На данный вопрос нет ответа, к примеру, Google рекомендует прописывать инструкции в файле robots.txt, однако будет ли такая инструкция работать с другими AI, неясно.
 

Таким образом, вопрос допустимости сбора и обработки общедоступных данных с сайта пока что остается открытым, однако в любом случае владельца сайта могут лимитировать использование своих данных AI с некоторыми ограничениями.


Уважаемые журналисты, использование материалов с сайта REVERA в публикациях возможно только после нашего письменного разрешения. 

Для согласования материалов обращайтесь на e-mail: i.antonova@revera.legal или Telegram: https://t.me/PR_revera