亞馬遜推新模型Nova Sonic AI語音應用更似自然人類對話

更新時間:15:58 2025-04-10 HKT
發佈時間:15:58 2025-04-10 HKT

亞馬遜於周三(9日)宣布推出突破性語音基礎模型Amazon Nova Sonic,將語音理解與生成功能整合至單一模型,使AI語音應用更貼近自然人類對話。該模型透過Amazon Bedrock平台提供API接口,大幅簡化語音應用開發流程。

傳統語音應用難保留聲學情境

亞馬遜表示,如何表達與表達甚麼同樣重要,甚至更為關鍵。從過去直到現在,透過AI實現這一點仍是巨大挑戰。傳統語音應用開發需複雜協調多個模型,例如將語音轉為文字的語音識別模型、理解並生成回覆的大語言模型、將文字再轉為音頻的文本轉語音模型。這種分散的方法不僅增加了開發的複雜性,同時亦難保留自然對話中至關重要的聲學情境和細微差別,如語氣、語調韻律和說話風格等。

Nova Sonic可理解語氣與風格

至於Nova Sonic的主要創新在於摒棄了使用多個不同模型的方式,而是將理解與生成功能統一於單一模型中。這種整合使模型能根據語氣、風格等聲學情境以及口語輸入調整所生成的語音響應,從而實現更自然的對話。此技術預計將廣泛應用於客戶服務自動化,以及旅遊、教育、醫療和娛樂等多個領域的AI Agent系統。

此外,Nova Sonic透過整合語音處理功能,能夠在保留完整聲學情境的同時進行理解與回應,讓AI語音交流更自然流暢,能夠理解說話者的自然停頓、適時回應,甚至處理交談中的插話情況,大幅提升AI語音應用的使用體驗。