Gretel 公布全球最大的開源文本轉 SQL 數據集，助力企業充分發揮人工智能的潛力

Home AI新聞 Gretel 公布全球最大的開源文本轉 SQL 數據集，助力企業充分發揮人工智能的潛力

Gretel 這家領先的合成數據公司，正積極推進高品質 AI 訓練數據的民主化。週四，公司推出了全球最大的開源 Text-to-SQL 數據集，預計將加速 AI 模型訓練，並為全球企業創造新機遇。

該數據集包含超過 100,000 個精心設計的合成 Text-to-SQL 範本，涵蓋 100 個行業，並已在 Hugging Face 上根據 Apache 2.0 授權可供使用。此舉旨在賦能開發人員，幫助他們創建強大的 AI 模型，能夠理解自然語言查詢並生成 SQL，有效地將商業用戶與複雜的數據源連接起來。

“獲取高品質訓練數據是生成式 AI 的最大挑戰之一，”Gretel 首席科學家 Yev Meyer 表示。“高品質的合成數據可以彌補這一鴻溝，尤其是近期大型語言模型（LLMs）的發展強調了數據質量的重要性。”

應對數據質量挑戰

Gretel 的創新數據集是使用 Gretel Navigator 生成的，這是一個目前公開預覽中的複合 AI 系統。“我們的開源 Text-to-SQL 數據集由 Gretel Navigator 創建，該系統結合了基於代理的執行、一系列專有模型和隱私增強技術，以按需生成高品質的合成數據，”Meyer 詳細說明。

這一發布解決了企業在存取和利用存儲於複雜數據庫、數據倉庫和數據湖的海量數據中所面臨的困難。此外，數據集還包含解釋字段，提供 SQL 代碼的通俗英語描述，簡化終端用戶提取有價值見解的過程。

嚴格驗證及多樣應用

Gretel 對數據質量的承諾在其嚴格的驗證過程中得以體現。“我們生成的每一個數據集都經過質量評估。質量基準是我們運營的核心，”Meyer 強調。該 Text-to-SQL 數據集在 SQL 遵從性、正確性及遵循指示方面的表現，均超越其他數據集，這是通過獨立的 LLM 作為評估技術進行的評估。

合成的 Text-to-SQL 數據集在多項評分標準上超越了 b-mc2/sql-create-context 數據集：遵從 SQL 標準 (+54.6%)、SQL 正確性 (+34.5%) 並遵循指示 (+8.5%)。

廣泛的行業應用

Gretel 的數據集潛在用途廣泛，涵蓋金融、醫療和政府等行業。金融分析師可以即時查詢有關公司表現的數據庫信息，而醫療提供者可以簡化臨床試驗數據分析。政府官員則可利用該數據集提升公眾對許可證、財產所有權和許可證等記錄的訪問。

優先考慮數據隱私與可及性

隨著企業認識到數據驅動 AI 的必要性，Gretel 生成大量高品質合成數據的能力使其成為行業中的關鍵角色。“Gretel 解決方案專為企業級需求設計，為客戶提供從零開始創建數據或增強現有數據集的手段，”Meyer 解釋。

Gretel 在隱私保護方面的承諾同樣先進，採用如差分隱私等技術來保護敏感信息，同時讓模型能夠從數據中學習。這種兼顧精確性與隱私的焦點，使 Gretel 在數據安全至上的行業中脫穎而出。

數據驅動 AI 的里程碑

Gretel 的 Text-to-SQL 數據集的推出，標誌著公司在推動數據驅動 AI 採用方面的關鍵時刻，使企業能夠充分發揮其數據的潛力。憑藉對質量、隱私和可及性的重視，Gretel 領引合成數據的革命。

隨著 AI 環境的快速演變，Gretel 對開源社區的先驅貢獻凸顯其對創新及提高高品質訓練數據可及性的承諾。這一發布的影響將在各行各業迴響，企業將利用 AI 在日益數據驅動的環境中獲得競爭優勢。

Anyscale 解決 Ray 框架中的重大漏洞，然而仍有數千個系統未受到保護

量子計算創業公司 Infleqtion 任命馬修·金賽拉為新任首席執行官

Most people like

SearchAI by Bocha

20.3K

無廣告的答案引擎介紹：您獲取清晰客觀資訊的首選來源在這個被廣告和行銷干擾淹沒的世界中，尋找簡明的答案往往充滿挑戰。我們的無廣告答案引擎提供一個無雜亂的平台，傳遞準確且可靠的信息，無任何打擾或促銷內容。沉浸於一種以知識探索為首要任務的體驗，確保在您需要的時候獲得所需的見解。發現無噪音的清晰！

人工智慧搜尋 Large Language Models (LLMs)

Kore.ai

166.8K

Kore.ai 提供創新的人工智慧助手，旨在提升和自動化客戶與員工的體驗，簡化互動並提高效率。

對話式人工智慧 AI Chatbot

FluxImg

22.8K

發掘一個強大的 AI 圖像生成器，創造出驚豔的高品質圖像，充滿精緻的細節。利用這款專為藝術家、市場營銷人員和內容創作者設計的先進工具，釋放你的創意潛力，尋求視覺上引人注目的影像。

AI 影像生成器 AI Art Generator

Open Data Science

76.5K

加入我們專為數據科學家和人工智慧愛好者設計的活力社區網站。在這裡，您將找到有價值的資源、深入的討論以及支持性的網絡，幫助您在不斷變化的數據科學和人工智慧世界中茁壯成長。與志同道合的人士互動，分享您的知識，並隨時掌握塑造人工智慧和數據分析未來的最新趨勢和技術。

資料科學 AI Course

Find AI tools in YBX