aiOla推出Whisper-Medusa:革命性的语音识别模型
今日,以色列人工智能初创公司aiOla发布了Whisper-Medusa,这是一个开创性的开源语音识别模型,其速度比OpenAI的流行Whisper快50%。
Whisper-Medusa采用了新颖的“多头注意力”架构,使其能够同时预测多个标记,显著提升了处理速度。该模型的代码和权重已在Hugging Face以MIT许可证公开,支持研究和商业应用。通过开放源代码,aiOla鼓励人工智能社区的创新与合作。aiOla研究副总裁Gill Hetz表示:“这将促使开发者和研究人员基于我们的工作进行更多速度上的提升。”这些进展可能为AI系统实现近实时理解与响应用户询问铺平道路。
Whisper-Medusa的独特之处
随着基础模型生成越来越多样化的内容,先进的语音识别技术显得尤为重要。这项技术在医疗、金融科技等多个行业中至关重要,能够实现转录、驱动复杂的多模态AI系统等功能。去年的OpenAI Whisper模型将用户音频转换为文本,供大型语言模型(LLMs)处理,并返回语音回答。Whisper已经成为语音识别领域的黄金标准,能够几乎实时处理复杂的语音模式和口音,月下载量超500万次,支持成千上万的应用。
如今,aiOla声称Whisper-Medusa实现了更快速的语音识别和转录。通过改进Whisper的架构,采用多头注意力机制,该模型在每次处理时可以预测十个标记,而不是一个,从而使预测速度和运行效率提高了50%。
Whisper-Medusa vs. OpenAI Whisper
尽管速度提升,Whisper-Medusa仍然保持与原版Whisper相同的准确性,这要归功于其基础架构。Hetz表示:“我们是业内首个将这种方法应用于自动语音识别(ASR)模型并发布供公众研究的公司。”
Hetz解释说:“提高LLMs的速度比优化ASR系统更容易,因为连续音频信号和噪声的复杂性带来了独特的挑战。通过我们的多头注意力方法,我们几乎将预测速度提高了一倍,而没有牺牲准确性。”
Whisper-Medusa的训练方法
aiOla采用弱监督机器学习技术对Whisper-Medusa进行训练。通过冻结Whisper的主要组件,利用模型自身生成的音频转录作为标签,训练额外的标记预测模块。
Hetz提到,他们最初使用的是10头模型,计划扩展至20头版本,以同时预测20个标记,从而进一步提高识别和转录速度,同时不影响准确性。“这种方法能够高效处理整段语音,减少多次处理的需求,从而提升速度。”
尽管Hetz对特定公司的早期访问保持低调,他确认已测试实际企业数据用例,以验证在真实应用中的性能。识别和转录速度的改善将有助于在语音应用中实现更快的响应。想象一下,像Alexa这样的AI助手能在几秒钟内给出答案。
Hetz总结道:“实时语音转文本系统将极大地推动行业发展,提高生产力,降低成本,加快内容交付。”