開發者指南:啟動您的生成式 AI 之旅 - 量身定制的應用案例方法

生成式人工智慧具有顯著提升人類生產力的潛力,然而,目前只有少數組織擁有從零開始開發和訓練基礎模型所需的專業知識和資源。面臨的挑戰有兩方面:首先,由於內容擁有者對知識產權的嚴格控制,收集必要的訓練數據變得愈加困難;其次,訓練所需的財務資源可能會非常昂貴。然而,將生成式人工智慧技術普及至社會的潛在好處是相當可觀的。

那麼,小企業或個人開發者如何將生成式人工智慧整合進他們的應用程序中呢?解決方案在於創建和部署現有基礎模型的定制版本。

考慮到開發全新生成式人工智慧模型的重大投資,這些模型必須具有足夠的靈活性,以適應多種應用,正如目前各種基於GPT模型的使用方式。然而,通用模型可能無法充分滿足不同領域的具體需求。使用大型通用模型進行小眾應用也可能導致不必要的計算資源、時間和能量浪費。因此,大多數企業和開發者最適合以大型生成式人工智慧模型作為基礎,並根據自身需求進行適應,這樣可以減少開發工作量。這也提供了基礎設施的靈活性,能利用可用的CPU或AI加速器,避免GPU短缺的問題。關鍵在於專注於具體用例,縮小項目的範圍,同時通過開放、標準化的軟體和普遍可用的硬體來優化靈活性。

採取用例方法進行人工智慧應用開發

在軟體開發中,用例描述了目標用戶的特徵、待解決的問題及其應用如何達成這些目標。這一定義決定了產品需求,影響軟體架構,並提供了產品生命周期的路線圖。最重要的是,它明確了項目範圍之外的內容。

對於生成式人工智慧項目,建立用例可以減少模型的大小、計算需求和能耗,同時通過專注於特定數據集來提升準確性。這種針對性的方法可降低開發努力和成本。

針對生成式人工智慧的用例定義因素可能因項目而異,但可以考慮以下幾個指導問題:

- 數據需求:需要和可用的訓練數據類型和數量是什麼?數據是結構化的(數據倉庫)還是非結構化的(數據湖)?有哪些限制?應用程序將如何處理數據——通過批處理還是流處理?模型更新的頻率是什麼?從零開始訓練大型語言模型(LLM)是耗時的,因此如果實時知識對您的應用至關重要(例如,醫療),則可能需要其他方法來確保數據的最新性。

- 模型需求:考慮如模型大小、性能和結果透明度等因素,在選擇合適模型時至關重要。LLM的性能範圍從數十億到數萬億個參數——Meta的Llama 2提供從70億到700億個參數的版本,而OpenAI的GPT-4報導的參數數量為1.76萬億。通常,較大的模型性能更高,但較小的模型可能更符合您的需求。開放模型允許更深層的客製化,而封閉模型則提供現成解決方案並提供API訪問。根據數據調整模型對於需要可追溯性的應用尤為重要,例如為投資者生成財務報告摘要,而對於像廣告文案生成這樣的創意任務,現成模型可能已足夠。

- 應用需求:確定對準確性、延遲、隱私和安全的必要標準。這一應用程式需要支持多少個同時用戶?用戶將如何與應用程序互動?例如,您的模型運行在低延遲的邊緣設備上還是在高容量的雲環境中,將對實施決策產生重大影響。

- 計算需求:一旦上述因素澄清,確定必要的計算資源。您是否需要使用Modin*來平行處理數據?您的微調和推斷需求是否需要混合雲邊緣設置?即使您擁有從頭開始開發生成式人工智慧模型的技術和數據,也要評估您的預算是否能支持必要的計算基礎設施變更。

這些考量將指導項目需求的定義和範圍。財務因素——涵蓋數據工程、前期開發費用和支持推斷成本的商業模式——同樣決定了數據、訓練和部署的策略。

英特爾的生成式人工智慧技術如何協助

英特爾提供針對多樣計算需求的異構AI硬體解決方案。為了充分發揮硬體潛力,英特爾提供流行數據分析和端到端AI工具的優化版本。最近,英特爾推出了一個優化模型,該模型在Hugging Face開放LLM排行榜上排名第一,擁有70億個參數(截至2023年11月)。這些資源連同英特爾AI開發者生態系統中的其他資源,可以滿足應用程序對準確性、延遲和安全性的需求。從Hugging Face或GitHub上開始,探索數百個為英特爾硬體優化的預訓練模型。您可以使用英特爾工具如Modin進行數據預處理,使用Intel® Extension for Transformers或Hugging Face Optimum進行基礎模型的微調,並使用SigOpt自動化模型調優,這一切都基於為開源AI框架如TensorFlow、PyTorch和DeepSpeed貢獻的優化。

生成式人工智慧用例範例

1. 客戶服務:聊天機器人用例

基於LLM的聊天機器人通過提供即時反饋,提升服務效率,使客戶代表能專注解決更複雜的問題。通用型LLM能使用多種語言進行對話,但可能缺乏特定業務知識,或在無依據的情況下自信地“幻覺”信息。微調可逐步更新模型,而檢索方法,如檢索增強生成(RAG),則從基於業務文件構建的外部數據庫中提取相關數據。這兩種方法均可產生上下文特定的反應,並可利用類似英特爾® Xeon® 可擴展處理器的現成CPU。

2. 零售:虛擬試穿用例

生成式人工智慧可提供沉浸式的線上購物體驗,如虛擬試穿,提升客戶滿意度,並優化供應鏈效率。此應用基於圖像生成,應聚焦於特定服裝線。對於像Stable Diffusion這樣的圖像模型微調,可能僅需在CPU平台上處理有限數量的圖像。為了保護客戶隱私,圖像應當本地存儲,也可能儲存在消費者設備上。

3. 醫療保健:病人監測用例

結合生成式人工智慧與即時病人監測,可以生成個性化的報告和行動計畫。這一用例需要多模態AI來處理各種輸入類型並生成報告。在醫療領域訓練模型會引發隱私問題,因此必須保證病人數據留在服務提供者那裡。聯邦學習允許模型本地訓練而不轉移敏感數據。儘管本地推斷理想,但可能需要涉及邊緣和雲組件的混合解決方案,並可能需要優化技術。

如何開始

首先,根據上述指導問題定義您的用例,以明確數據、計算、模型和應用需求。接著,探索AI生態系統中可用的相關基礎模型、參考實現和社區資源。確認並運用最適合您項目的微調和優化技術。

認識計算需求可能需要時間,並且往往在整個項目中不斷演變。英特爾®開發者雲提供各種CPU、GPU和AI加速器,協助您開始開發。

最後,為了在開發和部署期間簡化不同計算平台之間的轉換,選擇開放、標準化的AI工具和框架,確保其在各種設備上的最佳性能,而不需大量代碼重寫。

Most people like

Find AI tools in YBX