谷歌雲端推出了其旗艦AI模型的兩個版本:Gemini 1.5 Flash和Gemini 1.5 Pro。Gemini 1.5 Flash是一個精簡的多模態模型,具備100萬token的上下文窗口,專為高頻任務設計。該模型在五月的Google I/O大會上首次亮相,如今已向開發者開放。而更強大的Gemini 1.5 Pro在二月份推出,擁有驚人的200萬token上下文窗口,成為谷歌迄今為止最先進的大型語言模型(LLM)。
這些Gemini版本的推出展示了谷歌的AI技術如何幫助企業創造創新的AI代理和解決方案。在最近的一次新聞簡報中,谷歌雲端CEO托馬斯·庫里安強調了生成式AI採用的「驚人動力」,並指出包括埃森哲、空中客車和高盛等大型組織正在基於谷歌的平台構建應用。庫里安將這一浪潮歸因於谷歌模型與Vertex平台的強大功能,預示著這兩個領域的快速進步。
Gemini 1.5 Flash
Gemini 1.5 Flash為開發者提供了更低的延遲和具成本效益的定價,並擁有適合零售聊天代理和文檔處理的上下文窗口。谷歌聲稱,Gemini 1.5 Flash在處理10,000字符輸入時,其性能平均比GPT-3.5 Turbo快40%。此外,該模型的輸入成本比OpenAI的模型低四倍,並支持對超過32,000字符的輸入進行上下文緩存。
Gemini 1.5 Pro
Gemini 1.5 Pro的獨特之處在於其200萬token的上下文窗口,允許更深入的文本分析和綜合回應輸出。庫里安解釋說,這一能力意味著用戶可以輸入大量內容,例如一段兩小時的高清視頻或超過60,000行的代碼,而無需將內容拆分成更小的部分。許多公司已經從這款模型增強的處理能力中獲得了顯著的價值。
庫里安進一步根據用戶需求區分了這兩個模型:Gemini 1.5 Pro非常適合處理冗長內容,而Flash則更適合低延遲應用。
Gemini 1.5的上下文緩存
為了幫助開發者充分利用Gemini的上下文窗口,谷歌推出了上下文緩存,目前已在兩個模型中公開預覽。此功能允許模型存儲和重用先前處理過的信息,大幅降低計算成本—最高可達75%,因為它消除了對於長對話或文檔重新計算回應的需求。
Gemini的預配置吞吐量
新推出的預配置吞吐量功能使開發者能夠更有效地擴展其Gemini模型的使用,通過管理模型可以承受的查詢數量來實現。這一選項相比於之前的按需付費模式提供了更好的可預測性和可靠性。庫里安指出,預配置吞吐量允許客戶預留推斷容量,確保即使在需求激增的時期,例如大型活動期間的社交媒體平台,也能保持穩定的性能。
預配置吞吐量如今已全面推出,為開發者提供了對其生產工作負載的更大控制權,以及關於響應時間和正常運行時間的服務級別保證。