苹果研究人员推出突破性人工智能系统:超越GPT-4的创新技术

苹果研究人员开发了一个名为 ReALM(参考解析作为语言建模)的人工智能系统,旨在显著提升语音助手对指令的理解和响应能力。

在最新的研究论文中,苹果公司阐述了 ReALM 如何利用大型语言模型来应对参考解析的挑战。该系统在处理模糊参考(如屏幕实体的指代)和理解上下文对话方面表现出色,使用户与设备的互动更加直观自然。

参考解析是自然语言理解的重要组成部分,使用户能够在对话中使用代词和间接指称而不导致混淆。然而,由于处理各种语言提示和视觉信息的复杂性,这一直是数字助手面临的重大挑战。ReALM 旨在将这一复杂过程简化为一种简单的语言建模任务,从而更好地理解对话中与屏幕视觉元素相关的引用。

ReALM 通过文本表示重建屏幕的视觉布局,分析屏幕上的实体及其位置,以生成反映屏幕内容和结构的文本格式。苹果的研究人员发现,经过特别微调的语言模型在参考解析任务中的表现显著优于传统方法,包括 OpenAI 的 GPT-4。

这一进展使用户能够根据屏幕上显示的内容更高效地与数字助手互动,无需提供准确详细的描述。这为语音助手的应用开辟了更大的潜力,例如为驾驶者提供导航信息,或为残障用户实现更简单、准确的间接交互。

最近,苹果发布了几项与人工智能相关的研究,特别是上个月发布的无缝整合文本与视觉信息的大型语言模型训练方法。人们对即将在六月举行的 WWDC 大会充满期待,届时苹果预计将推出一系列新的人工智能功能。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles