Apple, NVIDIA и Anthropic обвиняются в несанкционированном использовании транскриптов YouTube для обучения моделей ИИ.

Недавнее исследование Proof News показало, что несколько крупных технологических компаний по всему миру использовали датасет из более чем 173 000 расшифровок видео с YouTube без разрешения для обучения своих моделей ИИ. Этот датасет, созданный некоммерческой организацией EleutherAI, включает в себя расшифровки из более чем 48 000 каналов, среди которых такие компании, как Apple, NVIDIA и Anthropic. Это расследование поднимает важный вопрос: многие базовые датасеты для технологий ИИ были использованы без согласия или справедливой компенсации создателей контента.

Хотя в датасете нет самих видео или изображений с YouTube, он содержит расшифровки от известных создателей, таких как Marques Brownlee и MrBeast, а также контент крупных медиаорганизаций, включая The New York Times, BBC и ABC News. Также представлен контент из Engadget.

Marques Brownlee выразил свои опасения в социальной сети X, отметив: "Apple получает данные для ИИ от нескольких компаний, включая значительное количество текстов расшифровок, извлеченных из видео на YouTube, включая мои собственные." Он подчеркнул: "Это затянувшаяся проблема."

Представитель Google подтвердил Engadget, что слова CEO YouTube Нила Мохана остаются актуальными: использование данных YouTube для обучения моделей ИИ нарушает условия использования платформы. Компании Apple, NVIDIA, Anthropic и EleutherAI не ответили на запросы Engadget.

Отсутствие прозрачности в использовании данных, применяемых компаниями ИИ для обучения моделей, продолжает оставаться серьезной проблемой. В последнее время художники и фотографы раскритиковали Apple за то, что компания не раскрыла источники обучающих данных для своей будущей технологии генеративного ИИ, Apple Intelligence, которая будет внедрена на миллионах устройств Apple.

Как крупнейшая платформа для онлайн-видео, YouTube предлагает не только данные расшифровок, но и аудио- и видеоконтент, что делает его ценным ресурсом для обучения ИИ. Ранее в этом году технический директор OpenAI Мира Муратти уклонилась от ответов на вопросы Wall Street Journal о том, использовались ли видео YouTube для обучения инструмента компании, Sora, заявив, что использованные данные были общедоступными или лицензированными. CEO Alphabet Сундар Пичаи также заявлял, что обучение моделей ИИ с данными YouTube нарушает условия обслуживания платформы.

Чтобы проверить, включен ли расшифровка конкретного канала или видео в указанный датасет, посетите инструмент запроса Proof News.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles