aiOla发布超快“多头”语音识别模型，超越OpenAI Whisper

Home AI News CN aiOla发布超快“多头”语音识别模型，超越OpenAI Whisper

aiOla推出Whisper-Medusa：革命性的语音识别模型

今日，以色列人工智能初创公司aiOla发布了Whisper-Medusa，这是一个开创性的开源语音识别模型，其速度比OpenAI的流行Whisper快50%。

Whisper-Medusa采用了新颖的“多头注意力”架构，使其能够同时预测多个标记，显著提升了处理速度。该模型的代码和权重已在Hugging Face以MIT许可证公开，支持研究和商业应用。通过开放源代码，aiOla鼓励人工智能社区的创新与合作。aiOla研究副总裁Gill Hetz表示：“这将促使开发者和研究人员基于我们的工作进行更多速度上的提升。”这些进展可能为AI系统实现近实时理解与响应用户询问铺平道路。

Whisper-Medusa的独特之处

随着基础模型生成越来越多样化的内容，先进的语音识别技术显得尤为重要。这项技术在医疗、金融科技等多个行业中至关重要，能够实现转录、驱动复杂的多模态AI系统等功能。去年的OpenAI Whisper模型将用户音频转换为文本，供大型语言模型（LLMs）处理，并返回语音回答。Whisper已经成为语音识别领域的黄金标准，能够几乎实时处理复杂的语音模式和口音，月下载量超500万次，支持成千上万的应用。

如今，aiOla声称Whisper-Medusa实现了更快速的语音识别和转录。通过改进Whisper的架构，采用多头注意力机制，该模型在每次处理时可以预测十个标记，而不是一个，从而使预测速度和运行效率提高了50%。

Whisper-Medusa vs. OpenAI Whisper

尽管速度提升，Whisper-Medusa仍然保持与原版Whisper相同的准确性，这要归功于其基础架构。Hetz表示：“我们是业内首个将这种方法应用于自动语音识别（ASR）模型并发布供公众研究的公司。”

Hetz解释说：“提高LLMs的速度比优化ASR系统更容易，因为连续音频信号和噪声的复杂性带来了独特的挑战。通过我们的多头注意力方法，我们几乎将预测速度提高了一倍，而没有牺牲准确性。”

Whisper-Medusa的训练方法

aiOla采用弱监督机器学习技术对Whisper-Medusa进行训练。通过冻结Whisper的主要组件，利用模型自身生成的音频转录作为标签，训练额外的标记预测模块。

Hetz提到，他们最初使用的是10头模型，计划扩展至20头版本，以同时预测20个标记，从而进一步提高识别和转录速度，同时不影响准确性。“这种方法能够高效处理整段语音，减少多次处理的需求，从而提升速度。”

尽管Hetz对特定公司的早期访问保持低调，他确认已测试实际企业数据用例，以验证在真实应用中的性能。识别和转录速度的改善将有助于在语音应用中实现更快的响应。想象一下，像Alexa这样的AI助手能在几秒钟内给出答案。

Hetz总结道：“实时语音转文本系统将极大地推动行业发展，提高生产力，降低成本，加快内容交付。”

Hedra推出Character-1：前沿视频专用基础模型

英特尔裁员15%，至少15,000名员工受影响

Most people like

HARPA AI

882.5K

HARPA AI：一款专为网络自动化和人工智能任务设计的Chrome扩展工具。

AI驱动的网络自动化 AI SEO助手

Komiko : AI Comics, AI Characters & AI Anime

8.4K

Sure! Please provide the introduction you would like me to refine.

人工智能漫画 AI漫画和漫画

AgentX

21.2K

提升潜在客户生成的可靠 AI 代理商

人工智能代理 AI聊天机器人

Afiniti CX AI

146.6K

提升客户互动的人工智能解决方案

客户体验AI解决方案 AI客户服务助手

Find AI tools in YBX