Woman hand holding a white paper cloud conceptual on blue background.
亞馬遜推出全新 Nova Sonic 語音到語音模型
可深入理解人類對話,捕捉語氣、語調同節奏
亞馬遜宣布推出一款全新的基礎模型 Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使 AI 應用程式中的語音對話更貼近真人交流。該模型透過 Amazon Bedrock 上的新 API 提供,可簡化語音應用開發流程,例如客戶服務通話自動化,以及涵蓋旅遊、教育、醫療、娛樂等領域的跨行業 AI agents。
在過去十餘年間,亞馬遜一直引領著語音技術的發展,致力於為對話式 AI 應用賦能 — 從打造全球領先的個人 AI 助手 Alexa,到開發 Amazon Web Services 的各類服務,如 Lex、Polly 和 Connect 等。然而,若要讓語音 AI 為客戶創造更多實際價值,它必須能夠理解人類對話的微妙與複雜性。在對話中,文字本身承載意義,但若沒有聲音語境賦予其深度,僅憑文字往往難以傳達完整資訊。如何表達與表達甚麼同樣重要,甚至更為關鍵。從過去直到現在,透過 AI 實現這一點仍是巨大挑戰。
Nova Sonic 採用全新方法應對這些挑戰。它摒棄了使用多個不同模型的方式,而是將理解與生成功能統一於單一模型中。這種整合使模型能根據語氣、風格等聲學情境以及口語輸入調整所生成的語音響應,從而實現更自然的對話。Nova Sonic 甚至能理解人類對話的細微之處,包括說話者的自然停頓與猶豫、能在恰當時機做出回應,並能從容應對對話中的插話情況。
發表迴響