С развитием технологий искусственного интеллекта (ИИ) данные становятся ключевым фактором в создании моделей ИИ. Однако недавний отчет Wall Street Journal подчеркивает беспрецедентные сложности, с которыми сталкиваются компании ИИ в получении качественных обучающих данных. Сегодня The New York Times углубляется в стратегии, которые используют эти компании для преодоления этой сложной проблемы, особенно в контексте сложностей, связанных с авторскими правами на ИИ.
OpenAI, лидер в сфере ИИ, имеет особенно острое требование к обучающим данным. По сообщениям, компания транскрибировала более миллиона часов видео с YouTube для разработки своей продвинутой языковой модели GPT-4, используя технологию аудиозаписи Whisper. OpenAI также собрала различные другие ресурсы данных, включая код с GitHub, базы данных шахматных ходов и образовательный контент с Quizlet.
Этот подход вызвал юридические споры. Хотя OpenAI утверждает, что использование данных соответствует принципам добросовестного использования, The Times сообщает, что президент OpenAI Грег Брокман лично участвовал в процессе сбора данных, что дополнительно усложняет вопросы авторского права.
В интервью The Verge представитель OpenAI отметил, что компания разрабатывает уникальные наборы данных для каждой модели, чтобы улучшить понимание мира и поддерживать конкурентные исследования на глобальном уровне. Также упоминается, что OpenAI исследует возможность генерации синтетических данных, чтобы уменьшить зависимость от внешних источников информации.
Google выразила озабоченность по поводу практики OpenAI. Представитель компании сообщает по электронной почте, что Google наблюдает непроверенные сообщения о действиях OpenAI, подчеркивая, что файл robots.txt и условия сервиса Google запрещают неавторизованный парсинг или загрузку контента с YouTube.
Генеральный директор YouTube Нил Мохан в недавнем интервью заявил, что, хотя нет прямых свидетельств использования OpenAI видео с YouTube для обучения модели Sora, такие действия нарушили бы условия сервиса YouTube.
Одновременно Meta сталкивается с собственными проблемами доступности данных. По информации The Times, поскольку команда ИИ Meta стремится догнать OpenAI, она рассматривает сценарии, связанные с несанкционированным использованием защищенных авторским правом произведений. Для расширения своих наборов данных Meta проанализировала огромный массив англоязычных книг, эссе, поэзии и новостных статей, обсуждая возможность выплат за лицензирование книг или прямую покупку у крупных издателей.
Эти события подчеркивают юридические и этические проблемы, с которыми сталкивается индустрия ИИ в сборе и использовании данных. По мере развития технологий возникает неотложный вопрос: как могут развиваться модели ИИ, не нарушая защиту авторских прав? Важно, чтобы компании ИИ и регулирующие органы сотрудничали в установлении более четких и справедливых норм, способствующих здоровому и устойчивому развитию технологий ИИ.