埃隆·马斯克的 xAI 最近推出了首款多模态模型 Grok-1.5 Vision(Grok-1.5V),该模型不仅能够理解文本,还能处理多种视觉数据,包括文档、图表、截图和照片。该模型即将在早期测试者和现有 Grok 用户中发布。
根据公司的一篇博客文章,Grok-1.5V 在多个领域与领先的多模态模型竞争,特别是在多学科推理和科学图表、文档及图像的视觉理解方面。
此次发布紧随更新后的聊天机器人模型 Grok-1.5 之后。xAI 演示了七个 Grok-1.5V 的应用实例,包括将白板流程图转换为 Python 代码、根据儿童画作生成睡前故事、解释网络 meme、将表格转换为 CSV 文件,以及评估木质甲板是否因腐烂需要更换。
xAI 声称,Grok-1.5V 在多个评估中优于竞争对手模型,如 GPT-4V、Claude 3 Sonnet、Claude 3 Opus 和 Gemini Pro 1.5。公司特别强调,Grok-1.5V 在 RealWorldQA 基准测试中的表现尤为出色,该测试是用于评估现实世界空间理解的新指标。
RealWorldQA 数据集包含700多张图像,每张图像都配有特定的问题和答案。这些图像包括从车辆拍摄的匿名图像。xAI 计划根据创意共享许可证向公众发布 RealWorldQA。
随着 xAI 的不断进步,它旨在与 OpenAI 和其他行业领导者竞争,并在2023年11月推出其聊天机器人。Grok-1.5V 的发布是在 xAI 将 Grok AI 开源之后不久。尽管公司面临诸多争议,包括有关 Grok 聊天机器人提供非法活动建议的指控,但 xAI 仍致力于开发能够理解宇宙的“有益人工通用智能”。该公司已宣布将在未来几个月内推出 Grok AI 的多模态理解和生成能力的重大更新。