苹果研究团队推出具备“视觉”功能的人工智能系统,以理解屏幕内容

苹果的研究人员开发了一种突破性的人工智能系统,称为ReALM(引用解析作为语言建模),旨在提升数字助手在理解模糊引用和对话上下文方面的能力,从而实现更自然的交流。这一创新成果刚刚发布。

ReALM利用大型语言模型,将复杂的引用解析任务(例如理解屏幕上的视觉元素)转化为语言建模挑战。根据苹果研究团队的说法,这种方法显著优于传统方式。他们指出:“理解上下文和引用对于对话助手至关重要,使用户能够查询屏幕内容是实现真正免提体验的重要一步。”

ReALM在引用解析方面的一大进展是其使用位置解析技术重新定位屏幕实体的能力,这种方法生成的文本表示保留了视觉布局。测试结果表明,当这种方法与专门针对引用解析优化的语言模型结合时,其表现超过了GPT-4。研究人员表示:“我们的系统在处理各种引用时显著提升了表现,在较小模型的任务中,涉及屏幕引用时实现了超过5%的绝对增益,而较大模型则在性能上显著优于GPT-4。”

这项研究突显了专业语言模型在处理引用解析任务中的潜力。在实际应用中,由于延迟或计算限制,部署大规模的端到端模型可能不太现实。研究结果展示了苹果在提升Siri和其他产品的对话能力及上下文理解方面的持续努力。

不过,研究人员也提醒,自动屏幕解析存在一定局限性。处理更复杂的视觉引用,例如区分多个图像,可能需要整合计算机视觉和多模态技术。

尽管在这个快速发展的市场中仍落后于竞争对手,苹果在人工智能领域已悄然取得显著进展。公司的研究实验室不断创新多模态模型、AI驱动的工具,以及高性能的专用AI技术,展现了其在人工智能领域的雄心。

随着6月即将举行的全球开发者大会的临近,公众期待苹果推出新的大型语言模型框架、"Apple GPT" 聊天机器人以及其他在其生态系统内的AI功能,以快速适应变化的市场动态。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles