Gretel, лидер в области синтетических данных, сделала важный шаг к демократизации доступа к качественным данным для обучения ИИ. В четверг компания представила крупнейший в мире открытый набор данных Text-to-SQL, что ожидается ускорит обучение AI-моделей и создаст новые возможности для бизнеса по всему миру.
Набор данных включает более 100 000 тщательно разработанных синтетических примеров Text-to-SQL из 100 секторов и теперь доступен на Hugging Face под лицензией Apache 2.0. Эта инициатива нацелена на предоставление разработчикам инструментов для создания надежных AI-моделей, способных интерпретировать запросы на естественном языке и генерировать SQL, что облегчает связь бизнес-пользователей с сложными источниками данных.
«Доступ к качественным учебным данным — одна из главных проблем в генеративном ИИ», — сказал Ев Мейер, главный научный сотрудник Gretel. «Качественные синтетические данные могут преодолеть этот разрыв, особенно учитывая, что недавние разработки в области больших языковых моделей подчеркивают важность качества данных».
Преодоление проблем качества данных
Инновационный набор данных Gretel был создан с использованием Gretel Navigator, сложной системы ИИ, находящейся на стадии публичного предварительного просмотра. «Наш открытый набор данных Text-to-SQL был разработан с помощью Gretel Navigator, который включает агентное исполнение, ряд собственных моделей и технологии повышения конфиденциальности для генерации синтетических данных по запросу», — уточнил Мейер.
Выпуск данного набора данных решает проблему, с которой сталкивается бизнес при доступе и использовании огромных объемов данных, хранящихся в сложных базах данных, хранилищах данных и озерах данных. Кроме того, набор включает поле с описанием, которое предоставляет простые объяснения SQL-кода, упрощая извлечение ценной информации для конечных пользователей.
Строгая валидация и разнообразные приложения
Комитет Gretel по качеству данных демонстрируется через строгие процессы валидации. «Каждый набор данных, который мы создаем, проходит оценку качества. Бенчмаркинг качества является центральным элементом нашей работы», — заявил Мейер. Набор данных Text-to-SQL последовательно превосходит другие по соответствию SQL, корректности и соблюдению инструкций, что оценивалось независимой техникой LLM-as-a-judge.
Синтетический набор данных Text-to-SQL показал лучшие результаты по нескольким критериям: соответствие стандартам SQL (+54,6%), корректность SQL (+34,5%) и соблюдение инструкций (+8,5%).
Широкие отраслевые приложения
Потенциальные применения набора данных Gretel обширны, охватывая финансы, здравоохранение и государственный сектор. Финансовые аналитики могут сразу запрашивать информацию о результатах компании, в то время как медицинские работники могут упростить анализ данных клинических испытаний. Государственные служащие могут использовать этот набор данных для улучшения доступа общественности к записям, таким как лицензии, право собственности на недвижимость и разрешения.
Приоритет конфиденциальности данных и доступности
Поскольку предприятия осознают необходимость ИИ, ориентированного на данные, способность Gretel генерировать огромные объемы качественных синтетических данных ставит компанию на ключевую позицию в отрасли. «Решения Gretel разработаны с учетом потребностей бизнеса масштаба предприятия, предоставляя клиентам средства создания данных с нуля или расширения существующих наборов данных», — пояснил Мейер.
Комплексный подход Gretel к конфиденциальности также передовой: используется, например, дифференциальная приватность для защиты конфиденциальной информации, позволяя моделям обучаться на данных. Это балансирование точности и конфиденциальности выделяет Gretel в отрасли, где безопасность данных имеет первостепенное значение.
Веха для ИИ, ориентированного на данные
Выпуск набора данных Text-to-SQL от Gretel знаменует собой важный момент в миссии компании по содействию принятию ИИ, ориентированного на данные, что позволяет бизнесу раскрыть весь потенциал своих данных. С акцентом на качество, конфиденциальность и доступность, Gretel готова возглавить революцию синтетических данных.
С учетом быстро меняющегося ландшафта ИИ, новаторский вклад Gretel в открытое сообщество подчеркивает ее приверженность инновациям и демократизации доступа к качественным учебным данным. Влияние этого релиза будет ощущаться в различных отраслях, поскольку компании используют ИИ для получения конкурентных преимуществ в постоянно более ориентированном на данные окружении.