亚马逊最近宣布了对Alexa自然语言处理和语音能力的重大提升,使这一虚拟助手能够进行更加人性化的互动。这一进展最早在5月的发布会上透露,推出了一种新的基础模型,以便简化对话,使其更加自然和直观。
新功能之一是Alexa现在能够进行API调用,改善信息获取和个性化体验。Alexa的知识基础进行了优化,提高了提供事实响应的准确性。此外,亚马逊还重新设计了Alexa的自动语音识别(ASR)系统,强化了其核心算法和硬件,并转向一个经过数千小时多语言音频数据训练的更全面的文本转语音模型。该高级ASR系统巧妙地应对中断,具备修复截断语音的功能,使交流更加流畅。
除了这些升级,Alexa还获得了一种新的语音对语音模型,赋予其更为人性化的对话特质,包括笑声和反映用户情感语调的能力。例如,当用户表达兴奋时,Alexa也能以类似的方式回应,为互动增添情感层次。
这些创新是在亚马逊高级副总裁Dave Limp主持的活动中展示的,该活动在亚马逊位于弗吉尼亚州阿灵顿的新总部举行。Limp强调,与Alexa的互动如今“就像和另一个人对话”,突显了助手对话能力的显著进步。
另一项值得注意的功能是,用户只需注视带有摄像头的设备屏幕即可激活Alexa,无需唤醒词。该增强功能常被与苹果最新的Siri更新进行比较,利用新的设备端视觉处理技术结合声学模型,准确判断用户是与Alexa对话还是与其他人交流。
这些令人印象深刻的功能将在未来几个月内推出,这与首席执行官Andy Jassy创建“世界最佳个人助手”的愿景相一致。为支持这一使命,亚马逊成立了一个专门的核心团队,专注于重大人工智能项目。该团队由Rohit Prasad领导,作为Alexa的首席科学家,直接向CEO Jassy汇报,致力于开发大型语言模型,以进一步提升Alexa的功能和用户体验。