В эпоху искусственного интеллекта, основанного на данных, в Силиконовой долине развернулась жесткая конкуренция среди технологических гигантов. Эти компании активно инвестируют в исторические интернет-данные: старые фотографии и чаты стали важным активом в борьбе за доминирование. Эта гонка за данными обусловлена не только острейшей нуждой в объемных данных для обучения ИИ-моделей, но и интенсивной борьбой за будущее лидерство на технологическом рынке.
С развитием генеративного ИИ качественные данные становятся ключевым фактором его прогресса. Однако нехватка высококачественных данных побуждает технологические компании обращать внимание на ранее недооцененные ресурсы. Согласно анализу Института эпохи, ожидается, что к 2026 году технологические компании потребят все доступные высококачественные данные в интернете темпами, значительно превышающими скорость генерации новых данных.
В таком контексте технологические гиганты готовы значительно инвестировать в приобретение лицензированных данных. Например, на платформе Photobucket старые данные превратились в прибыльный товар: стоимость каждой фотографии колеблется от пяти до одного доллара, а видео превышают доллар. Эти данные используются для обучения ИИ-моделей, повышая их функциональность и точность.
Кроме того, технологические компании активно сотрудничают с новостными организациями и библиотеками изображений для получения дополнительного обучающего контента. Через короткое время после запуска ChatGPT вступил в партнерство с Shutterstock, чтобы использовать его обширную коллекцию изображений, видео и музыки для обучения ИИ. Эти сделки оцениваются в миллионы и десятки миллионов долларов, подчеркивая важность данных в разработке ИИ.
Тем не менее, гонка за данными вызывает опасения по поводу конфиденциальности и авторских прав. Когда ИИ-модели обучаются на данных с личной информацией, может быть нарушена приватность пользователей. Кроме того, вопрос права собственности на данные становится все более актуальным, поскольку некоторые компании сталкиваются с судебными исками за несанкционированное использование чужих данных, что затрудняет развитие технологий ИИ.
Учитывая эти вызовы, технологические компании должны приоритетно относиться к защите конфиденциальности данных и управлению авторскими правами, продолжая технологические разработки. Им следует внедрить строгие протоколы сбора и обработки данных для обеспечения защиты приватности пользователей и проводить честные переговоры и лицензирование с владельцами данных, чтобы избежать нарушения прав.
В целом, конкуренция за данные в Силиконовой долине демонстрирует огромный потенциал технологий ИИ, а также выявляет сложности, связанные с конфиденциальностью и авторским правом. В будущем технологическим компаниям необходимо найти баланс между инновациями и защитой данных для достижения устойчивого роста.