谷歌DeepMind推出'Mirasol3B'：先进视频分析技术的突破性进展

Home AI News CN 谷歌DeepMind推出'Mirasol3B'：先进视频分析技术的突破性进展

Updated on 十一月 15 2023

谷歌DeepMind最近宣布了一项重大突破，推出了一种名为“Mirasol3B”的新型自回归模型。该模型旨在通过根本提升多模态学习能力，增强对长视频输入的处理和理解。

Mirasol3B采用前瞻性的方法，将音频、视频和文本数据有效整合在一起。谷歌研究的工程师Isaac Noble与DeepMind的研究科学家Anelia Angelova表示，主要挑战在于数据模态的多样性：“尽管音频和视频模态之间是时间同步的，但它们通常与文本对齐不佳。大量的音频和视频数据可能会压倒文本，导致特别对于长视频需要不成比例的压缩。”

改革多模态学习

为应对这一挑战，Mirasol3B将多模态建模解耦为不同的自回归组件。它分别处理时间同步的输入（音频和视频）与顺序但不一定对齐的模态（如文本）。

Noble和Angelova描述道：“我们的模型包含一个针对时间同步模态（音频和视频）的自回归组件，另一个用于顺序但非时间对齐模态的文本输入。”

此次宣布正值行业更大范围内采用AI分析多种数据格式的背景下，Mirasol3B的问世标志着重要进展，为视频问答和长视频内容的质量保证等应用开辟了新路径。

YouTube的潜在应用

这一模型在YouTube上应用的前景引人注目，YouTube是全球最大的在线视频观看平台，也是谷歌的重要收入来源。Mirasol3B可通过自动生成字幕、视频摘要和个性化推荐等功能，提高用户参与度。用户还可以获得更好的搜索能力，按关键字、主题或情感过滤视频，从而提升可及性和发现性。

此外，该模型能够提供基于视频内容的上下文答案与反馈，帮助用户高效查找相关资源或播放列表，丰富观众的观看体验。

人工智能界的反应

人工智能界对此次创新反应不一，既有热情也有怀疑。一些专家对Mirasol3B的创新方法表示赞赏。Hugging Face的机器学习研究工程师Leo Tronchon在社交媒体上兴奋地表示：“看到Mirasol这样整合多种模态的模型令人着迷。现在只有少数健壮的模型能够有效利用音频和视频。”

然而，亦有一些人提出了担忧。爱荷华大学的计算机科学学生Gautam Sharda注意到：“似乎并没有可用的代码、模型权重、训练数据，甚至API。为什么没有？除了研究论文之外，看到更多的东西将会很好。”

人工智能未来的里程碑

此次宣布标志着人工智能与机器学习领域的重要时刻，突显了谷歌推动技术边界的决心。同时，这也对研究人员、开发者和用户提出了挑战，要求确保模型遵循道德、社会和环境标准。