LMSYS组织推出了“多模态竞技场”,这是一个创新性的排行榜,用于评估AI模型在视觉相关任务中的表现。短短两周内,该竞技场汇聚了来自60多种语言的超过17,000票用户偏好,展示了当前AI在视觉处理方面的能力。
在多模态竞技场排行榜上,OpenAI的GPT-4o模型位居首位,紧随其后的是Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro。这一排名突显了领先科技公司在快速变化的多模态AI领域中的激烈竞争。
值得注意的是,开源模型LLaVA-v1.6-34B的表现与一些专有模型(如Claude 3 Haiku)相当,这表明先进AI能力的潜在民主化,为研究人员和小型公司提供更好的尖端技术获取机会。
排行榜涵盖广泛的任务,包括图像注释、数学问题解决、文档理解和表情包解读。这种多样性旨在全面呈现每个模型的视觉处理能力,以应对现实应用中的复杂需求。
然而,尽管多模态竞技场提供了宝贵的见解,但其主要测量的是用户偏好,而非客观准确性。普林斯顿大学的研究人员最近推出的CharXiv基准提供了更加严谨的视角,评估AI在解读科学论文中的图表时的表现。
CharXiv的结果揭示了当前AI系统的重大局限性。表现最好的模型GPT-4o仅获得47.1%的准确率,而最佳开源模型的准确率为29.2%。相比之下,人类的准确率达到80.5%,强调了AI在解释复杂视觉数据时的差距。
这一差距凸显了AI发展的重大挑战:尽管在物体识别和基本图像注释等任务上取得了显著进展,AI仍在细微推理和上下文理解方面面临困难,而这些能力是人类在处理视觉信息时自然运用的。
多模态竞技场的发布以及CharXiv等基准的洞察,正值AI行业的关键时刻。随着公司努力将多模态AI整合到虚拟助手和自动驾驶等产品中,了解这些系统的真正局限性变得愈发重要。
这些基准充当了现实检验,纠正了关于AI能力的夸大声明,也为研究人员指明了需要改进的领域,以达到人类水平的视觉理解。
在复杂视觉任务中AI与人类表现的差距既带来了挑战,也带来了机遇。这表明,可能需要在AI架构或训练方法上进行创新,以实现强大的视觉智能,这为计算机视觉、自然语言处理和认知科学的创新铺平了道路。
随着AI社区对这些发现的反思,预计将更加重视开发不仅能够感知而且能够真正理解视觉世界的模型。创造能够在复杂视觉推理任务中达到甚至超越人类理解水平的AI系统的竞赛已经开启。