亞馬遜推新模型Nova Sonic AI語音應用更似自然人類對話

更新時間：15:58 2025-04-10 HKT
發佈時間：15:58 2025-04-10 HKT

亞馬遜於周三（9日）宣布推出突破性語音基礎模型Amazon Nova Sonic，將語音理解與生成功能整合至單一模型，使AI語音應用更貼近自然人類對話。該模型透過Amazon Bedrock平台提供API接口，大幅簡化語音應用開發流程。

傳統語音應用難保留聲學情境

亞馬遜表示，如何表達與表達甚麼同樣重要，甚至更為關鍵。從過去直到現在，透過AI實現這一點仍是巨大挑戰。傳統語音應用開發需複雜協調多個模型，例如將語音轉為文字的語音識別模型、理解並生成回覆的大語言模型、將文字再轉為音頻的文本轉語音模型。這種分散的方法不僅增加了開發的複雜性，同時亦難保留自然對話中至關重要的聲學情境和細微差別，如語氣、語調韻律和說話風格等。

Nova Sonic可理解語氣與風格

至於Nova Sonic的主要創新在於摒棄了使用多個不同模型的方式，而是將理解與生成功能統一於單一模型中。這種整合使模型能根據語氣、風格等聲學情境以及口語輸入調整所生成的語音響應，從而實現更自然的對話。此技術預計將廣泛應用於客戶服務自動化，以及旅遊、教育、醫療和娛樂等多個領域的AI Agent系統。

此外，Nova Sonic透過整合語音處理功能，能夠在保留完整聲學情境的同時進行理解與回應，讓AI語音交流更自然流暢，能夠理解說話者的自然停頓、適時回應，甚至處理交談中的插話情況，大幅提升AI語音應用的使用體驗。

↓即睇減息部署↓