Часто это называют «первородным грехом» генеративного ИИ: многие ведущие модели компаний, таких как OpenAI и Meta, обучались на данных, собранных из интернета без предварительного согласия оригинальных авторов.
Компании ИИ, защищающие эту практику, утверждают, что она легально допустима. OpenAI заявляет в недавнем блоге: «Обучение ИИ моделям с использованием общедоступных материалов из интернета является законным использованием, о чем свидетельствует долгосрочная практика. Мы верим, что этот принцип справедлив по отношению к авторам, необходим для новаторов и критичен для конкурентоспособности США.»
Сбор данных имеет историю, существующую задолго до появления генеративного ИИ, и использовался во многих исследовательских базах данных и коммерческих продуктах, включая популярные поисковые системы, такие как Google, на которые авторы полагаются для привлечения трафика к своим проектам.
Тем не менее, против этой практики растет протест, многие авторы и художники подают иски против нескольких компаний ИИ за предполагаемое нарушение авторских прав, обучаясь на их работах без явного согласия. В частности, Midjourney и OpenAI находятся под пристальным вниманием.
Появилась новая некоммерческая организация «Fairly Trained», выступающая в защиту создателей данных, настаивая на том, что перед использованием их работ в обучении ИИ должно быть получено явное согласие. Соучредитель организации, бывший сотрудник Stability AI Эд Ньютон-Рекс, стремится убедиться в уважении прав авторов со стороны компаний ИИ.
«Мы верим, что многие потребители и компании предпочли бы сотрудничать с генеративными ИИ-компаниями, которые обучаются на данных, предоставленных с согласия авторов», — говорится на сайте организации.
Ньютон-Рекс подчеркивает необходимость двигаться вперед, уважая авторов, и выступает за лицензирование данных для обучения. «Если вы работаете в компании генеративного ИИ или знаете такую компанию, которая придает этому подходу значение, надеюсь, вы рассмотрите возможность сертификации», — поделился он в социальных сетях.
Отвечая на распространенный аргумент сторонников ИИ о том, что обучение на общедоступных данных похоже на то, как люди учатся, наблюдая за творческой работой, Ньютон-Рекс возразил: «Этот аргумент неверен по двум причинам. Во-первых, ИИ масштабируется. Один ИИ может генерировать огромное количество контента, что может заменить спрос на большую часть оригинального контента — чего не может сделать ни один человек. Во-вторых, человеческое обучение проходит в рамках установленного социального контракта; авторы всегда знали, что их работы могут вдохновлять других. Они не ожидали, что ИИ-системы будут использовать их творения для создания конкурентного контента в больших объемах.»
Ньютон-Рекс советует компаниям ИИ, которые уже обучались на общедоступных данных, перейти на модель лицензирования и получить разрешение от авторов. «Мы все еще на ранних стадиях развития генеративного ИИ, и есть время для создания взаимовыгодной экосистемы для творцов и компаний ИИ», — отметил он.
Fairly Trained ввела сертификацию «Licensed Model (L) для поставщиков ИИ», чтобы отличить компании, которые получают согласие на использование данных для обучения, от тех, которые этого не делают. Процесс сертификации включает онлайн-заявку, за которой следует более детальная проверка, с оплатой, основанной на годовом доходе, варьирующейся от 150 до 6000 долларов.
Ньютон-Рекс объяснил: «Мы взимаем плату, чтобы покрыть наши расходы, и она достаточно невысока, чтобы не быть запрещающей для генеративных ИИ-компаний». Некоторые компании, включая Beatoven.AI и Soundful, уже получили эту сертификацию, хотя Ньютон-Рекс отказался раскрывать конкретные суммы сборов.
Отвечая на вопрос о таких компаниях, как Adobe и Shutterstock, которые обучают ИИ-модели, используя работы авторов в соответствии с их условиями обслуживания, он сказал: «Нам предпочтительнее не комментировать конкретные модели, которые мы не сертифицировали. Если они считают, что их модели соответствуют нашим стандартам сертификации, мы призываем их подать заявку.»
Советниками Fairly Trained являются Том Грубер, бывший главный технолог Siri, и Мария Паланте, президент и CEO Ассоциации американских издателей. Поддерживают организацию такие известные организации, как Ассоциация независимых музыкальных издателей и Universal Music Group, обе из которых участвуют в судебных разбирательствах против компании ИИ Anthropic из-за авторских прав на текст песен.
На вопрос о том, участвует ли Fairly Trained в каких-либо текущих судебных делах, Ньютон-Рекс уточнил: «Нет, я не участвую ни в одном из исков.» Он также подтвердил, что в настоящее время для Fairly Trained нет внешнего финансирования, кроме сборов за сертификацию.