MIT и Cohere объединили силы для запуска платформы по отслеживанию и фильтрации проверенных наборов данных для ИИ.

Home Новости ИИ MIT и Cohere объединили силы для запуска платформы по отслеживанию и фильтрации проверенных наборов данных для ИИ.

Updated on октябрь 25 2023

Исследователи из MIT, Cohere for AI и 11 других учреждений представили Платформу происхождения данных, чтобы решить актуальную проблему прозрачности данных в ИИ. В рамках этой инициативы они проанализировали и проследили происхождение почти 2,000 самых популярных наборов данных для дообучения, которые были скачаны десятки миллионов раз и служат основой для значительных достижений в области обработки естественного языка (NLP). По словам кандидата наук в MIT Media Lab Шейна Лонгпри и главы Cohere for AI Сары Хукер, "результатом этой многопрофильной работы является крупнейший аудит наборов данных ИИ на сегодняшний день." Впервые эти наборы данных содержат теги, которые указывают на оригинальные источники данных, многократные переоформления лицензий, создателей и другие важные свойства.

Для повышения удобства использования, Проводник происхождения данных — интерактивная платформа — позволяет разработчикам отслеживать и фильтровать тысячи наборов данных на основе юридических и этических критериев. Этот ресурс также предоставляет возможность исследователям и журналистам анализировать состав и происхождение популярных наборов данных ИИ.

Сборники наборов данных игнорируют происхождение

Инициатива culminировалась статьей под названием "Инициатива происхождения данных: массовый аудит лицензирования и атрибуции наборов данных в ИИ", в которой выделяется важная проблема: "Широко используемые сборники наборов данных часто воспринимаются как монолитные, не признавая их разнообразного происхождения. Эти наборы данных часто собираются, генерируются, кураторятся и аннотируются через множество циклов переработки и лицензирования различными практикующими."

Недостаток мотивации признавать это происхождение объясняется огромным масштабом сбора данных, что усложняет процесс атрибуции, а также усилившимся вниманием к авторскому праву. В результате снизилось использование Datasheets и уменьшилась прозрачность источников обучения, что привело к недостаточному пониманию обучающих данных. Этот пробел в знаниях может вызвать утечку данных между обучающими и тестовыми наборами, раскрытие личной информации (PII), непреднамеренные предвзятости или поведения, а также в конечном итоге более низкое качество моделей, чем ожидалось. Более того, эти пробелы представляют значительные этические и юридические риски, такие как конфликты между выпуском моделей и условиями использования данных. Поскольку обучение на данных дорогостоящее и во многом необратимое, эти проблемы сложно решить.

Увеличение внимания к обучающим наборам данных в 2023 году

В течение 2023 года медиапокрытие поднимало вопросы о происхождении данных и прозрачности обучающих наборов данных. Например, в марте генеральный директор Lightning AI Уильям Фалькон раскритиковал статью OpenAI о GPT-4 за "маскировку под исследование", отметив отсутствие важных деталей. В разделе "Объем и ограничения" отчета специально указывалось на исключение информации о архитектуре, структуре данных и методах обучения из-за конкурентных и безопасных соображений, связанных с крупномасштабными моделями, такими как GPT-4.

В сентябре была опубликована подробная аналитика, касающаяся проблем авторского права, связанных с данными для обучения генеративного ИИ. Доктор Алекс Ханна, директор по исследованиям в Институте распределенных исследований ИИ (DAIR), отметил неотложные вызовы, вызванные быстрое распространение генеративного ИИ, заявив, что это вызвало серьезные опасения по поводу использования авторских материалов, собранных без согласия.

NatureEye представляет захватывающие дроновые экскурсии над потрясающими природными чудесами мира.

Amazon представляет революционный генератор изображений продуктов на основе искусственного интеллекта.

Most people like

Ivee

12.8K

В сегодняшнем цифровом ландшафте платформы B2B-инфлюенсер-маркетинга стали мощными инструментами для бизнеса, стремящегося повысить видимость и доверие к своему бренду. Сотрудничая с лидерами отрасли и инфлюенсерами, компании могут эффективно взаимодействовать с целевой аудиторией, строить доверие и повышать конверсии. Эта статья рассматривает ключевые преимущества и стратегии использования платформ B2B-инфлюенсер-маркетинга для улучшения ваших маркетинговых усилий и достижения устойчивого роста. Узнайте, как эти платформы могут изменить ваш подход к привлечению клиентов и генерации лидов на конкурентном рынке.

маркетинг влияния Other

Chub

7.1M

Раскройте весь потенциал своих языковых моделей, эффективно управляя и сотрудничая в разработке персонажей. Независимо от того, создаете ли вы интерактивные истории, разрабатываете уникальные образы или обучаете ИИ понимать разнообразные голоса, мастерство управления персонажами является ключом к достижению реалистичных и увлекательных результатов.

Персонажи AI Character

Denvr Dataworks

Denvr Dataworks специализируется на предоставлении надежных облачных и инфраструктурных решений, адаптированных для искусственного интеллекта (ИИ), машинного обучения (МО), высокопроизводительных вычислений (ВПВ) и различных вычислительных приложений.

высокопроизводительное облако Other

typedesk

22.7K

Typedesk — это мощное универсальное приложение, разработанное для автоматизированного ввода текста, повышая согласованность на разных платформах. С Typedesk упростите свой рабочий процесс и повысите продуктивность без усилий.

приложение для автоматических ответов AI Product Description Generator

Find AI tools in YBX