Решение GEMA v OpenAI: какие данные теперь нельзя использовать для обучения AI в Европе
11 ноября 2025 года Мюнхенский региональный суд впервые в Европе признал, что AI-компания нарушила авторские права при обучении своих моделей. OpenAI проиграла дело немецкой организации GEMA, которая представляет интересы композиторов и авторов текстов. Суд постановил, что ChatGPT незаконно использовал тексты песен для обучения, а затем воспроизводил их по простым запросам пользователей.
Казалось бы, при чем тут геймдев? Все очень просто. Игровые студии активно используют генеративный AI для создания ассетов, процедурной генерации контента, написания диалогов, создания музыки и звуков. Если вы обучаете свою модель на чужих ассетах, концепт-артах, музыке или текстах — после этого решения вы в зоне риска. То, что раньше казалось серой зоной, теперь суд четко квалифицирует как нарушение.
Команда Arbitration & IT Disputes юридической фирмы REVERA подготовила развернутый анализ решения и его последствий для AI-стартапов. Разбираем, какие данные теперь можно использовать для обучения моделей, а какие — прямой путь в суд.
Предыстория дела
GEMA, немецкое общество по управлению музыкальными правами, представляющее интересы более 95 000 членов, подала иск против OpenAI в ноябре 2024 года. ChatGPT воспроизводил оригинальные тексты песен без доступа к интернету, что доказывало использование этих текстов при обучении модели. Спор касался девяти известных немецких песен, включая “Atemlos” (Кристина Бах), “Männer” (Герберт Гренемайер) и “Über den Wolken” (Райнхард Мей).
OpenAI защищалась по трем направлениям:
- Во-первых, компания утверждала, что ее модели не хранят конкретные данные, а отражают статистические корреляции, и любой текст генерируется на основе пользовательских промптов, находящихся вне контроля компании.
- Во-вторых, OpenAI ссылалась на исключения для Text and Data Mining согласно статьям 3 и 4 Директивы ЕС 2019/790 (параграфы 60d и 44b UrhG).
- В-третьих, компания пыталась использовать статус некоммерческой исследовательской организации.
Ключевые выводы суда
Суд разобрал технические аргументы OpenAI и отклонил их все.
- Главный вывод: если модель может воспроизводить тексты песен по простым промптам вроде "Как звучит текст [название песни]", это и есть нарушение авторских прав.
GEMA доказала, что обучающие данные встраиваются в веса модели и остаются извлекаемыми — суд согласился с этим, опираясь на исследования в области информационных технологий. Судьи провели аналогию со сжатием MP3: модель не хранит тексты побуквенно, но способна воссоздавать их узнаваемо. Этого достаточно для признания факта воспроизведения по параграфам 15, 16 и 19a UrhG.
OpenAI пыталась защититься исключением для Text and Data Mining (статьи 3 и 4 Директивы ЕС 2019/790). Суд отклонил этот аргумент. TDM предназначен для извлечения абстрактных паттернов — синтаксических правил, общих терминов, семантических связей. Меморизация конкретных текстов песен — это уже не анализ данных, а прямое копирование. Хотя немецкий законодатель прямо упоминал "машинное обучение как базовую технологию для искусственного интеллекта" в параграфе 44b UrhG, суд провел четкую границу между обучением модели в целом и запоминанием целых произведений.
Суд также отверг попытку OpenAI переложить ответственность на пользователей. Компания выбрала обучающие данные, построила систему, определила ее архитектуру. Пользовательские промпты только запускают процессы, заложенные в модель — сами по себе они не создают независимой ответственности.
Другие защитные аргументы OpenAI тоже не сработали. Обучение AI не является "обычным использованием" произведения, на которое авторы молчаливо согласились бы. Ссылки на цитирование или пародию суд тоже не принял.
- Решение суда применяется только к старым версиям Chat GPT 4 и 4o, на которых GEMA проводила тестирование JUVE Patent. Во время судебного разбирательства между GEMA и OpenAI возникли разногласия относительно того, нарушают ли авторские права более новые версии модели. Суд не исследовал этот вопрос в рамках текущего дела. Это означает, что OpenAI теоретически может утверждать, что внедрила технические меры для предотвращения меморизации в более поздних версиях.
Однако суд установил принципиальную правовую позицию: сам факт меморизации и способности воспроизводить защищенный контент является нарушением, независимо от технических аргументов о "статистических корреляциях".
| Для практических целей это означает, что все AI-модели должны тестироваться на способность воспроизводить обучающие данные, и наличие такой способности создает правовой риск. |
Суд признал OpenAI виновной даже в нарушении 15-словного фрагмента, указав, что воспроизведенные фрагменты были достаточно длинными, чтобы исключить совпадение.
Суд обязал OpenAI немедленно прекратить нарушения, раскрыть информацию о нарушающей деятельности и выплатить компенсацию. Критически важно, что судья Эльке Швагер в устном объяснении решения заявила, что OpenAI признана виновной как минимум в небрежности, что привело к отказу в предоставлении шестимесячного льготного периода для внесения необходимых изменений и сохранения своего сервиса в Германии. Суд признал технические сложности удаления данных из обученной модели, однако обязанность предотвращать нарушения остается на провайдере. На практике это требует многоуровневых мер: фильтров на выходе, переобучения моделей и стратегий лицензирования.
Классификация данных для обучения ИИ после решения GEMA
| Категория данных | Статус | Описание и риски |
| Произведения в Public Domain | Безопасно | Произведения с истекшим сроком охраны (70 лет после смерти автора в ЕС) можно использовать без ограничений. Главная сложность - верификация статуса для контента из разных юрисдикций, где сроки различаются. Единственная безусловно безопасная категория. |
| Открытые лицензии | ||
| CC0 и аналоги | Безопасно | Использование без ограничений. Однако количество качественного контента под CC0 ограничено, особенно для специализированных доменов. |
| CC BY | Технически проблематично | Лицензия требует атрибуцию, что затруднительно для десятков тысяч источников, встроенных в веса модели. Некоторые юрисдикции могут признать это техническим несоответствием условиям лицензии. Практический риск пока неясен. |
| CC BY-NC CC BY-ND |
Запрещено | Первая запрещает коммерческое использование (а большинство AI-моделей коммерческие), вторая запрещает производные произведения. После GEMA обученная модель с большой вероятностью считается производным произведением. |
| ShareAlike-лицензии (например, CC BY-SA, GPL) | Вирусная ловушка | Требуют распространения производных под той же лицензией. Если модель - производное произведение, вся модель должна быть открыта под copyleft-лицензией. Для коммерческих проприетарных моделей это смертельно. Особенно опасны GPL (для кода) и ODbL (для баз данных типа OpenStreetMap). |
| Контент, не распространяемый по открытым лицензиям | ||
| Защищенный, публично доступный контент | Высокий риск | Тексты песен, статьи, посты в соцсетях, изображения. Использование без лицензии теперь признано судом нарушением. TDM-исключение не защищает при memorization. |
| Защищенный, публично недоступный контент | Абсолютно запрещено | Внутренние документы, приватные базы, контент за paywall. Нет легальных оснований без явного согласия. |
| Лицензированный контент | Безопасный путь | Единственный безопасный путь для коммерческого обучения ИИ в ЕС. Лицензии должны явно разрешать три вещи: обучение модели, меморизацию в параметрах и воспроизведение в выходных данных. Формулировки должны быть предельно конкретными — общие фразы про "использование в AI" после GEMA уже недостаточны. |
| Synthetic data | Условно безопасно | Если синтетические данные созданы моделью, обученной на защищенном контенте, возникает производное нарушение. Плюс проблема model collapse при обучении на AI-генерированном контенте. |
Необходимо подчеркнуть критическое отличие от другого известного дела — Getty Images — в Великобритании.
В параллельном деле Getty Images v Stability AI истец не смог предоставить убедительных доказательств того, что модель создавала практически идентичные копии обучающих данных. Getty даже отозвала свои требования относительно нарушений при обучении модели. В деле GEMA ситуация диаметрально противоположна — GEMA продемонстрировала суду конкретные примеры, когда ChatGPT воспроизводил тексты песен почти дословно по простым промптам типа "Как звучит текст песни".
Перспективы развития дела
OpenAI объявила о планах подать апелляцию. Решение может быть пересмотрено Мюнхенским высшим региональным судом или передано в Суд Европейского Союза. Параллельно GEMA продолжает судебное разбирательство против Suno AI по вопросу AI-генерированной музыки (слушание 26 января 2026 года). Если дела дойдут до Федерального суда Германии или Суда ЕС, это создаст обязывающие прецеденты для всей Европы.
GEMA предлагала OpenAI специальную модель лицензирования в сентябре 2024 года, однако компания отказалась. Проактивное лицензирование существенно дешевле судебных разбирательств. Лицензионные соглашения должны явно разрешать обучение модели, меморизацию в параметрах и воспроизведение в выходных данных с четкими условиями использования.
Решение GEMA v OpenAI устанавливает строгие правовые рамки: для коммерческих ИИ-систем в ЕС единственный надежный путь заключается в работе с public domain или лицензированным контентом.
- Концепция меморизации как нарушения означает, что технические аргументы о статистических корреляциях не обеспечивают правовую защиту от ответственности. Для AI-стартапов это императив к радикальному пересмотру стратегии работы с данными: инвестиции в правильное лицензирование и технические меры защиты являются необходимым условием устойчивого развития бизнеса.
Практические рекомендации
Рекомендуется провести аудит данных, использованных для обучения моделей, документируя источники, правовой статус и наличие лицензий. Критически важно тестировать модели на способность воспроизводить обучающие данные через простые промпты. При обнаружении меморизации необходимо внедрить фильтры на выходе, рассмотреть переобучение модели и получить лицензии на проблемные произведения.
Необходима многоуровневая стратегия защиты: на уровне датасета — с приоритетом на использование лицензированного контента или public domain, на уровне обучения — применение техник минимизации меморизации и differential privacy, на уровне вывода — фильтры и системы детекции нарушений.
Команда Arbitration & IT Disputes предоставляет комплексную юридическую поддержку AI-компаниям: аудит датасетов и оценка рисков, разработка стратегий лицензирования, подготовка защиты от потенциальных исков, переговоры с правообладателями и коллективными обществами управления правами. В новой правовой реальности после GEMA v OpenAI превентивная юридическая стратегия является критическим фактором успеха.
Автор: Глеб Шумилов
Напишите нам, чтобы узнать подробности
Написать юристуУважаемые журналисты, использование материалов с сайта REVERA в публикациях возможно только после нашего письменного разрешения.