谷歌即将通过革命性工具提升其网络开发平台,使用户能够利用自然语言提示创建应用程序,同时增强多模态功能。在最近的一篇Medium文章中,JavaScript工程师Bedros Pamboukian分享了关于MakerSuite即将推出的AI功能的截图,这其中包括备受期待的Gemini多模态AI模型,支持文本、图像和音频的输入输出。尽管这些功能尚未公开确认,早期截图表明它们仍处于开发阶段,多个界面元素看起来尚未完善。
揭示的功能
泄露的功能包括一款名为Stubbs的突出工具,旨在简化AI生成的应用程序原型的创建和分享。这一准确性若属实,Stubbs将为非技术人员提供一个用户友好的网络应用开发方式。此外,还有一个名为Stubbs Gallery的伴随功能,允许MakerSuite用户探索和修改现有原型。值得注意的是,用户创建的Stubbs默认为私密,用户可以选择与他人分享。
Gemini,也被称作MakerSuite集成时的代号“Jetway”,预计将推动该平台的多模态功能。它包括文本识别、物体识别、图像的上下文理解,以及在提示中整合视频和HTML的能力。工程师表示,Gemini还将集成到谷歌的应用开发环境Vertex AI中。
其他即将推出的功能
新增功能还包括MakerSuite的自动保存功能、对多种语言提示的翻译支持,以及与谷歌云端硬盘的集成,实现无缝导入图像和文件到编辑环境中。
谷歌Gemini:洞察与期待
自5月I/O活动上宣布以来,谷歌一直在引发关于Gemini的关注,CEO桑达尔·皮查伊强调了其显著优于以前模型的多模态能力。Gemini项目由谷歌DeepMind团队开发,结合了Brain团队和DeepMind的专家经验,旨在成为OpenAI的ChatGPT等行业领军者的强劲竞争者。
尽管细节仍然有限,Gemini的多模态特性已得到确认,能够处理和生成文本、视频和图像响应。此外,它还设计为可以访问多种工具和API,以增强功能。
促进更简单的应用开发
对利用AI改善网络应用开发的兴趣不断增长,谷歌正在通过一个名为Project IDX的新开发环境来推进这一目标。这个项目与MetaGPT和GitHub Copilot等许多其他工具一起,利用自然语言处理来促进应用的构建。
最近,一位前谷歌工程师提出了一种新的方法,使得可以在本地设备上构建AI驱动的Web应用,而不必完全依赖云基础设施。如果传言中的Stubbs得以实现,类似的突破可能会显著降低应用开发的门槛,正如AI和数据分析首席分析师布拉德利·希敏所言。
技术泄露的背景
需要注意的是,Pamboukian的博客文章中的信息尚未经过谷歌的正式验证。截图的来源仍不明确,尽管Pamboukian表示这些截图是直接获取的,没有外部资源影响内容。历史上,开发者们擅长于发掘未发布的功能;例如,早在六月,一位开发者在Meta CEO马克·扎克伯格于Connect 2023活动上正式宣布之前,就提前曝光了Instagram的AI聊天机器人计划。
随着谷歌推出这些可能变革性的功能,技术社区对将塑造应用创作未来的进一步发展充满了期待。