苹果研究人员声称ReALM设备模型超越GPT-4，大幅提升Siri智能表现

Home Hardware CN 苹果研究人员声称ReALM设备模型超越GPT-4，大幅提升Siri智能表现

苹果的ReALM模型提升Siri智能

4月2日，报道指出苹果正在推进其人工智能的研究，推出了名为ReALM的新模型，旨在显著增强Siri的功能。最新研究表明，ReALM在性能上已超越OpenAI著名的语言模型GPT-4.0，尽管目前Siri在图像描述方面的表现仍不稳定。

ReALM的主要特点

ReALM突出的特点在于它能够同时理解用户屏幕上显示的内容和正在执行的操作。该模型将信息分类为三种类型：

1. 屏幕实体：当前用户屏幕上可见的内容。

2. 对话实体：与进行中的对话相关的信息，例如在“拨打妈妈”的指令中提到的“妈妈”的联系方式。

3. 背景实体：与用户当前屏幕内容或操作不直接相关的实体，例如正在播放的音乐或即将到来的闹钟。

如果全面投入使用，ReALM将使Siri变得更智能、更实用。研究团队对ReALM与OpenAI的GPT-3.5和GPT-4.0进行了性能比较，得出了值得注意的结论：“我们测试了OpenAI的两种模型，GPT-3.5和GPT-4.0，并提供了上下文信息来预测各种实体。GPT-3.5只处理文本输入，而GPT-4能够理解图像数据，极大提升了对屏幕实体的识别能力。”

ReALM的出色表现

ReALM在识别不同类型实体方面展现了显著进步。最小模型在屏幕实体识别准确性上，较原系统提升了5%以上。在与GPT-3.5和GPT-4.0的比较中，我们的最小模型的表现与GPT-4.0不相上下，而更大的模型则明显超越了它。

研究的一个结论是，尽管ReALM的参数远少于GPT-4，但在处理特定上下文中的用户指令时，其性能具有竞争力，使其成为一个高效的本地实体识别系统。

对于苹果而言，挑战在于如何有效地在设备上部署这项技术，而不影响性能。随着2024年全球开发者大会（WWDC）定于6月10日召开，业界对苹果在iOS 18及其他即将发布的系统中展示的新AI进展充满期待。

苹果研究团队推出具备“视觉”功能的人工智能系统，以理解屏幕内容

三星通过生成性人工智能功能提升Bixby，提供更智能的助手服务