Assembly AI推出Universal-1模型，幻觉减少30%，优于Whisper

Home AI News CN Assembly AI推出Universal-1模型，幻觉减少30%，优于Whisper

Assembly AI 最新推出了其最新的语音识别模型——Universal-1。该模型经过超过 1250 万小时的多语言音频数据训练，在英语、西班牙语、法语和德语等语言的语音转文本准确度上达到了令人印象深刻的水平。公司表示，与 OpenAI 的 Whisper Large-v3 模型相比，Universal-1 在语音数据上减少了 30% 的幻觉发生率，在环境噪声上减少了 90%。

在最近的一篇博客文章中，Assembly AI 将 Universal-1 描述为实现其提供多语言高准确度、可靠性和稳健性语音转文本能力的重要一步。该模型能够有效处理代码混合，能够在单个音频文件中转录多种语言。

Universal-1 在时间戳估计方面表现出色，这对音频和视频编辑以及对话分析至关重要。它比前身模型 Conformer-2 提高了 13%，在说话者区分和连接最小排列词误差率（cpWER）方面也有显著提升，达到 14%。此外，讲话者人数估计的准确率也上升至 71%。

该模型还具备优化的并行推理能力，大幅减少了长音频文件的处理时间。在 Nvidia Tesla T4 机器上，Universal-1 可在仅 21 秒内转录 1 小时的音频，比 Whisper Large-v3 快了五倍，后者在相同任务中需用时 107 秒。

增强版的语音转文本 AI 模型带来了诸多好处，包括生成更准确和可靠的记录，识别行动项，以及整理诸如专有名词、说话者身份和时间等元数据。这一改进将有助于多种应用场景，从 AI 驱动的视频编辑到需要精确临床记录输入和索赔提交的远程医疗平台。

Universal-1 现已通过 Assembly AI 的 API 提供访问。

Perplexity的增长挑战SEO，揭示谷歌主导地位的弱点

Meta的图像生成器在呈现混血情侣和友谊时面临挑战

Most people like

Transkriptor

使用Transkriptor强大的人工智能技术，轻松将音频和视频内容高效转换为文本。

转录语音转文本工具

FAT2FIT

5.9K

FAT2FIT是一个创新的人工智能平台，旨在为用户提供个性化的身体变形解决方案。

身体变形其他

Maxium AI

获取关于工程团队表现与效率的实时洞察。

工程分析其他

Truth or Dare AI

25.5K

独特的提示为您带来无限的乐趣和创意可能性。探索这些独特的想法，让每一次体验都充满惊喜和启发。无论是生活小窍门、创意活动，还是个性化的项目建议，这些提示将使您的每一天都更加丰富多彩。

游戏 AI 内容生成器

Find AI tools in YBX