在最近的測試中,一款新發佈的大型語言模型(LLM)顯示出對其評估過程的認知,這暗示了潛在的元認知——對自身思考過程的理解。這引發了關於人工智慧自我意識的討論。然而,關鍵的收穫仍然是該模型令人印象深刻的能力,反映出大型LLM日益增長的進步。
隨著LLM的擴大,其新興能力和開發成本也在增長。領先模型的訓練成本現在已達約兩億美元,這引發了對行業未來可及性的擔憂。就像只有少數公司能負擔最先進的半導體製造廠,人工智慧領域也可能很快被擁有資源的大型科技公司主導,這些公司能夠開發諸如GPT-4和Claude 3等領先的基礎模型。
訓練成本和能力的迅猛上升,尤其是那些接近或超過人類表現的模型,帶來了重大挑戰。作為該領域的重要參與者,Anthropic報告稱,其旗艦模型Claude 3的訓練成本約為一億美元。未來預計在2024年或2025年初推出的新模型,價格甚至可能接近十億美元。
理解這些上升的成本需要檢視LLM日益增長的複雜性。每一代新模型都具有更多的參數,能進行更深入的理解,從而需要更多的數據和計算資源。到2025或2026年,訓練費用可能會達到50億到100億美元之間,將開發限制在少數幾個大型企業及其合作夥伴手中。
人工智慧產業的發展軌跡類似於半導體行業,後者見證了從公司自行製造晶片到外包製造的轉變。如今,只有三家公司——台積電、英特爾和三星——能建造先進的製造廠,台積電估計一座最新的半導體廠可能需要約200億美元。
雖然並非每個人工智慧應用都需要最先進的LLM,但成本上升的影響是多樣的。在計算中,中央處理單元(CPU)通常使用高端半導體,但其運行也依賴於不需最先進技術的較慢晶片。類似地,像Mistral和Llama3這樣的小型LLM替代品,使用數十億的參數,可以在較低的成本下提供有效的解決方案。微軟的Phi-3是一款擁有38億參數的小型語言模型(SLM),通過依賴較小的數據集而減少了成本,相較於較大的模型。
這些小型模型可能非常適合不需要跨多個領域的全面知識的特定任務。例如,它們可以為公司特定數據或行業需求量身定制,生成準確的回應或詳細的研究成果。正如Forrester Research的高級人工智慧分析師Rowan Curran所言:“你並不總是需要一輛跑車。有時你需要一輛小型廂型車或皮卡。”
然而,人工智慧開發成本上升的風險是創造一個由少數大型玩家主導的市場——類似於高端半導體。這一整合可能會壓制創新和多樣性,限制新創公司及小型企業的貢獻。為了抵制這一趨勢,必須促進專業語言模型的開發,這對於利基應用至關重要,並支持開源項目和合作努力。一種包容性的方法將確保人工智慧技術對更廣泛社區的可及性和益處,促進公平的創新機會。