谷歌近期推出了其创新的Gemini模型,首次展示了强大的大语言模型能力,并通过易于访问的API向企业和开发者开放。Gemini分为三个版本:Ultra、Pro和Nano。开发者现在可以通过谷歌的免费在线开发者工具AI Studio(前称Makersuite)访问Gemini Pro API,企业则通过谷歌云的Vertex AI平台进行集成,快速开发应用程序。
谷歌计划根据用户反馈在未来几周内优化Gemini Pro。公司在最新博客中表示:“我们对开发者和企业利用Gemini进行创新应用开发充满期待。”当前,Gemini Pro为谷歌的对话型AI Bard提供支持,意在与ChatGPT竞争。Gemini Pro的一大亮点是其32,000个代币的上下文窗口,能够处理约5,333个单词。相比之下,OpenAI的GPT-4 Turbo最多支持128,000个代币,未来Gemini Pro版本能力预计将有显著扩展。
Gemini Pro的功能包括支持38种语言、函数调用、嵌入、语义检索和自定义知识库。目前,该API仅支持文本输入和输出。谷歌还推出了多模态接口Gemini Pro Vision,可以接收文本和视觉输入(如图像和视频),并基于这些生成相应的文本输出。
目前,Gemini Pro API可以免费使用,但每分钟查询量限制在60个。谷歌将推出按需付费版本,承诺提供更少的限制,定价结构被描述为“竞争力十足”。Gemini Pro的收费为每千字符0.00025美元,每个图像0.0025美元,输出按每千字符0.0005美元计费。免费版本的数据将用于提升谷歌服务,而付费版本的数据则保持私密。
除了Gemini Pro,谷歌还扩展了其Vertex平台,推出新的模型Imagen 2,这是DeepMind最新的AI图像生成模型。该模型能够高质量生成文本描述的图像,甚至为企业设计逼真的商标,并支持多语言文本渲染。
另一项重要更新是MedLM,这是一款为医疗行业微调的基础模型,基于Med-PaLM 2模型,旨在支持医疗笔记记录和医疗相关问题解答。目前该模型仅向美国的Vertex用户开放,未来几周将扩展可用性。谷歌还计划将基于Gemini的模型融入MedLM套件中。
开发者专用的Duet AI工具现已全面上线,旨在帮助开发者简化应用程序构建过程,并能够集成到各种谷歌云界面中,提供代码生成和聊天辅助。在接下来几周,Gemini将与Duet AI整合,后者也将扩展到安全运营,增强安全运营平台中团队的协作。
通过这些创新,谷歌正开辟AI驱动应用程序的新纪元,致力于提升各行业的生产力、创造力和安全性。