揭开杰出AI模型的神秘面纱:ChatGPT多模态能力提升的动力解析

随着ChatGPT推出一周年的临近,这款强大的语言模型经历了显著的改进。OpenAI新增了多项功能,包括通过DALL-E 3实现的图像生成能力以及通过Bing获取实时信息的功能。然而,语音和图像功能的引入标志着一次变革性的升级,重新定义了用户交互体验。

这系列创新的核心是GPT-4V,又称为GPT-4 Vision。这一先进的多模态模型使用户能够无缝地进行文本和图像的互动。微软的研究人员在测试中发现,GPT-4V展现出了许多以前未曾测试的卓越能力。他们在研究《大语言模型的曙光:关于GPT-4V(ision)的初步探索》中强调了该模型在处理复杂的交织输入(例如菜单的图像与文字)方面的广泛潜力。

什么是GPT-4V?

GPT-4V(ision)是OpenAI开发的开创性多模态AI模型,用户可以通过视觉问答(VQA)功能询问上传的图像。从10月开始,月费20美元的ChatGPT Plus订阅用户或企业版用户即可在桌面和iOS平台上访问GPT-4V的功能。

GPT-4V的主要功能

- 视觉推理:该模型可以理解复杂的视觉关系和上下文细节,从而能够基于图像回答问题,而不仅仅是识别物体。

- 遵循指令:用户可以提供文本命令,使模型轻松执行新的视觉-语言任务。

- 上下文学习:GPT-4V表现出强大的少量学习能力,能够以最少的示例适应新任务。

- 视觉指代:模型能够识别视觉线索,如箭头和框,确保精确的指令执行。

- 密集描述:GPT-4V能够生成详细的多句描述,传达复杂的内容关系。

- 计数能力:该模型可以根据用户查询准确计算图像中的物体数量。

- 编码能力:它能够根据视觉输入生成代码,例如JSON解析。

与早期的多模态模型相比,GPT-4V在视觉-语言理解方面显著改进,显示出其在AI应用中的变革潜力。

GPT-4V的局限性

尽管GPT-4V具备强大的功能,但仍存在一些缺陷。用户在希望利用其进行高度复杂任务时,可能会遇到挑战,尤其是面对独特或特定设计的提示时。该模型在处理新样本时性能有限,并且某些复杂场景需要调整提示才能有效运作。

大型多模态模型(LMMs)的兴起

多模态AI的兴起代表了技术的关键演进。文本生成模型通过处理图像得到了升级,简化了用户查询和互动。这一演变使OpenAI更接近实现人工通用智能(AGI),这一是AI界追求已久的里程碑。该组织致力于创建既强大又对社会安全的AGI,促使各国政府制定监管法规来监督其发展。

OpenAI并不孤单,其他科技巨头如Meta也在多模态AI研究中进行投资。在图灵奖得主扬·勒昆的指导下,Meta正在积极开发SeamlessM4T、AudioCraft和Voicebox等模型,以创建一个包容性强的元宇宙。此外,新成立的前沿模型论坛汇集了OpenAI、微软、谷歌和Anthropic等领先AI开发商,致力于推进下一代多模态模型,凸显了这一领域在AI研究中的日益重要性。

随着这些发展,人工智能的格局正在迅速演变,显示出巨大的创造性应用潜力及改善用户体验的可能性。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles