亞馬遜宣布對Alexa的自然語言處理和語音能力進行重大提升,使這款虛擬助手能夠進行更接近人類的互動。這一進展在5月的一場介紹中首次透露,引入了新的底層模型,旨在簡化對話,使其更加自然和直觀。
新功能中,Alexa現在能夠進行API調用,改善了信息存取和個性化體驗的能力。助手的知識基礎得到了優化,增強了其提供事實性回應的可靠性。此外,亞馬遜還重新設計了Alexa的自動語音識別(ASR)系統,加強了核心算法和硬件,同時過渡到一個更大規模的文本轉語音模型,該模型基於數千小時的多語言音頻數據進行訓練。這個先進的ASR系統能靈活應對中斷,得益於修復截斷語音的功能,從而促進更流暢的交流。
除此之外,Alexa還獲得了一個新的語音到語音模型,增加了人性化的對話特質,包括笑聲和反映用戶情緒的能力。例如,如果用戶表達興奮,Alexa可以以相應的語氣回應,使互動更具情感色彩。
這些創新由亞馬遜高級副總裁Dave Limp在位於維吉尼亞州阿靈頓的新總部活動中展示。Limp強調,與Alexa的互動現在旨在讓人感覺「就像與另一個人交談」,突顯出助手在對話能力上的進展。
另一個顯著的特點是,使用者只需注視配有相機的設備屏幕即可激活Alexa,無需喚醒詞。這一增強功能常與蘋果最新的Siri更新相提並論,利用新設備上的視覺處理結合聲學模型,準確確定用戶是對Alexa發話還是對其他人。
這些令人印象深刻的能力將在未來幾個月內推出,符合首席執行官Andy Jassy努力打造「世界最佳個人助手」的願景。為了支持這一使命,亞馬遜成立了一支專注於雄心勃勃的人工智慧項目的專門團隊。這支隊伍由Alexa首席科學家Rohit Prasad領導,直接向CEO Jassy匯報,將致力於開發大型語言模型,進一步提升Alexa的功能和用戶體驗。