埃隆·马斯克的xAI发布Grok-1.5V：首个多模态AI模型

Home AI News CN 埃隆·马斯克的xAI发布Grok-1.5V：首个多模态AI模型

埃隆·马斯克的 xAI 最近推出了首款多模态模型 Grok-1.5 Vision（Grok-1.5V），该模型不仅能够理解文本，还能处理多种视觉数据，包括文档、图表、截图和照片。该模型即将在早期测试者和现有 Grok 用户中发布。

根据公司的一篇博客文章，Grok-1.5V 在多个领域与领先的多模态模型竞争，特别是在多学科推理和科学图表、文档及图像的视觉理解方面。

此次发布紧随更新后的聊天机器人模型 Grok-1.5 之后。xAI 演示了七个 Grok-1.5V 的应用实例，包括将白板流程图转换为 Python 代码、根据儿童画作生成睡前故事、解释网络 meme、将表格转换为 CSV 文件，以及评估木质甲板是否因腐烂需要更换。

xAI 声称，Grok-1.5V 在多个评估中优于竞争对手模型，如 GPT-4V、Claude 3 Sonnet、Claude 3 Opus 和 Gemini Pro 1.5。公司特别强调，Grok-1.5V 在 RealWorldQA 基准测试中的表现尤为出色，该测试是用于评估现实世界空间理解的新指标。

RealWorldQA 数据集包含700多张图像，每张图像都配有特定的问题和答案。这些图像包括从车辆拍摄的匿名图像。xAI 计划根据创意共享许可证向公众发布 RealWorldQA。

随着 xAI 的不断进步，它旨在与 OpenAI 和其他行业领导者竞争，并在2023年11月推出其聊天机器人。Grok-1.5V 的发布是在 xAI 将 Grok AI 开源之后不久。尽管公司面临诸多争议，包括有关 Grok 聊天机器人提供非法活动建议的指控，但 xAI 仍致力于开发能够理解宇宙的“有益人工通用智能”。该公司已宣布将在未来几个月内推出 Grok AI 的多模态理解和生成能力的重大更新。

边缘人工智能：通往可持续与可及AI未来的路径

谷歌创新技术赋予大语言模型无限的上下文理解能力

Most people like

Lawdeck

8.8K

AI 助力的法律文件创建与检索优化在当今技术迅速发展的时代，人工智能（AI）正在革命性地改变法律领域。AI 助力的法律文件创建和搜索不仅提高了效率，还极大地减少了人为错误。通过智能化工具，法律专业人士能够更快速地生成精准的法律文件，并且更高效地检索所需资料。这种创新不仅令法律服务变得更加便捷，也提升了客户体验，使得法律流程更加透明和高效。

法律文件自动化法律助手

LogoAI

1.8M

LogoAI是一个基于人工智能的创新平台，旨在协助企业轻松打造专业标志设计，以增强品牌形象和市场推广。

其他 AI标志生成器

Publer

4.5M

Publer是一个强大的工具，专为社交媒体管理而设计，能够轻松安排和分析在多个平台上发布的帖子。

社交媒体排程 AI社交媒体助手

The Good AI

241.3K

The Good AI是一个基于人工智能的高效写作平台，旨在为用户提供准确、智能的写作解决方案。

论文写作助手 AI检查器文章

Find AI tools in YBX