Gretel представляет крупнейший в мире набор данных с открытым исходным кодом для преобразования текстов в SQL, позволяя бизнесам максимально использовать потенциал ИИ.

Home Новости ИИ Gretel представляет крупнейший в мире набор данных с открытым исходным кодом для преобразования текстов в SQL, позволяя бизнесам максимально использовать потенциал ИИ.

Updated on апрель 5 2024

Gretel, лидер в области синтетических данных, сделала важный шаг к демократизации доступа к качественным данным для обучения ИИ. В четверг компания представила крупнейший в мире открытый набор данных Text-to-SQL, что ожидается ускорит обучение AI-моделей и создаст новые возможности для бизнеса по всему миру.

Набор данных включает более 100 000 тщательно разработанных синтетических примеров Text-to-SQL из 100 секторов и теперь доступен на Hugging Face под лицензией Apache 2.0. Эта инициатива нацелена на предоставление разработчикам инструментов для создания надежных AI-моделей, способных интерпретировать запросы на естественном языке и генерировать SQL, что облегчает связь бизнес-пользователей с сложными источниками данных.

«Доступ к качественным учебным данным — одна из главных проблем в генеративном ИИ», — сказал Ев Мейер, главный научный сотрудник Gretel. «Качественные синтетические данные могут преодолеть этот разрыв, особенно учитывая, что недавние разработки в области больших языковых моделей подчеркивают важность качества данных».

Преодоление проблем качества данных

Инновационный набор данных Gretel был создан с использованием Gretel Navigator, сложной системы ИИ, находящейся на стадии публичного предварительного просмотра. «Наш открытый набор данных Text-to-SQL был разработан с помощью Gretel Navigator, который включает агентное исполнение, ряд собственных моделей и технологии повышения конфиденциальности для генерации синтетических данных по запросу», — уточнил Мейер.

Выпуск данного набора данных решает проблему, с которой сталкивается бизнес при доступе и использовании огромных объемов данных, хранящихся в сложных базах данных, хранилищах данных и озерах данных. Кроме того, набор включает поле с описанием, которое предоставляет простые объяснения SQL-кода, упрощая извлечение ценной информации для конечных пользователей.

Строгая валидация и разнообразные приложения

Комитет Gretel по качеству данных демонстрируется через строгие процессы валидации. «Каждый набор данных, который мы создаем, проходит оценку качества. Бенчмаркинг качества является центральным элементом нашей работы», — заявил Мейер. Набор данных Text-to-SQL последовательно превосходит другие по соответствию SQL, корректности и соблюдению инструкций, что оценивалось независимой техникой LLM-as-a-judge.

Синтетический набор данных Text-to-SQL показал лучшие результаты по нескольким критериям: соответствие стандартам SQL (+54,6%), корректность SQL (+34,5%) и соблюдение инструкций (+8,5%).

Широкие отраслевые приложения

Потенциальные применения набора данных Gretel обширны, охватывая финансы, здравоохранение и государственный сектор. Финансовые аналитики могут сразу запрашивать информацию о результатах компании, в то время как медицинские работники могут упростить анализ данных клинических испытаний. Государственные служащие могут использовать этот набор данных для улучшения доступа общественности к записям, таким как лицензии, право собственности на недвижимость и разрешения.

Приоритет конфиденциальности данных и доступности

Поскольку предприятия осознают необходимость ИИ, ориентированного на данные, способность Gretel генерировать огромные объемы качественных синтетических данных ставит компанию на ключевую позицию в отрасли. «Решения Gretel разработаны с учетом потребностей бизнеса масштаба предприятия, предоставляя клиентам средства создания данных с нуля или расширения существующих наборов данных», — пояснил Мейер.

Комплексный подход Gretel к конфиденциальности также передовой: используется, например, дифференциальная приватность для защиты конфиденциальной информации, позволяя моделям обучаться на данных. Это балансирование точности и конфиденциальности выделяет Gretel в отрасли, где безопасность данных имеет первостепенное значение.

Веха для ИИ, ориентированного на данные

Выпуск набора данных Text-to-SQL от Gretel знаменует собой важный момент в миссии компании по содействию принятию ИИ, ориентированного на данные, что позволяет бизнесу раскрыть весь потенциал своих данных. С акцентом на качество, конфиденциальность и доступность, Gretel готова возглавить революцию синтетических данных.

С учетом быстро меняющегося ландшафта ИИ, новаторский вклад Gretel в открытое сообщество подчеркивает ее приверженность инновациям и демократизации доступа к качественным учебным данным. Влияние этого релиза будет ощущаться в различных отраслях, поскольку компании используют ИИ для получения конкурентных преимуществ в постоянно более ориентированном на данные окружении.

Dell усиливает конкурентные позиции в генеративном ИИ благодаря стратегическим инвестициям в SiMa.ai

Стартап в области квантовых вычислений Infleqtion назначил Мэттью Кинселлу новым генеральным директором.

Most people like

https://www.soaster.com

40.4K

Soaster — это мощный инструмент управления Twitter, созданный для повышения вовлеченности пользователей и достижения устойчивого роста.

Управление Twitter AI Twitter Assistant

banger.show

80.2K

banger.show предоставляет музыкантам возможность создавать впечатляющие видеовизуализаторы, усиливающие привлекательность их песен и помогающие им выделиться на платформах социальных сетей. Идеально подходит для продвижения неопубликованных треков, наш сервис увеличивает видимость вашей музыки и привлекает потенциальных слушателей.

аудиовизуализатор AI Music Generator

Limbiks - AI Flashcard Generator

119.1K

Мгновенно создавайте карточки из любого формата файла.

генератор флеш-карт AI Quizzes

HumanizerPro

12.9K

Превратите текст, сгенерированный ИИ, в увлекательную, человечную прозу, которая находит отклик у читателей.

ИИ-гуманизатор AI Detector

Find AI tools in YBX