首頁 > 新世紀集運 > 正文
Qzone
微博
微信

“聲音復刻”來了,克隆的聲音可以喚醒聲紋嗎?

TOM    2021-10-02 18:17

 

“聲音復刻”又稱“聲音克隆”,是語音合成技術(TTS ,Text To Speech)的個性化應用,用户可通過少量的錄音進行模型訓練,得到與用户本人在音色和發音風格上非常相似的聲音模型,快速“復刻”個性化聲音,該“復刻”聲音可使用在講故事、播天氣、讀小説、導航播報等功能場景。

 “聲音復刻”來了,克隆的聲音可以喚醒聲紋嗎?

 

TTS(Text-To-Speech,語音合成)對比熟悉的ASR(語音識別)技術,是將文字轉化為聲音“朗讀出來”,常見的Siri、小愛同學等語音助手的聲音,都是TTS技術的“傑作”。

近日,思必馳DUI開放平台上線“聲音復刻”技術服務,支持男聲、女聲、童聲的復刻,支持中、英文文本,支持UTF-8等多種文本格式,支持SSML標籤控制。同時,該服務支持8k、16k、32k等多種採樣率,支持合成mp3、wav、pcm等多種音頻格式……

快速定製 專屬音色

如果想用愛豆或親人的聲音做終端設備的語音播報,用户只需要錄製≤5分鐘語音內容,等待10分鐘左右即可獲得“專屬音色”。

思必馳語音合成技術是如何通過少量的數據,訓練出一個高還原度的聲音模型呢?

思必馳TTS技術,基於多年累積的多説話人的聲學特徵,將新數據輸入既有的模型參數裏進行遷移學習和精調,通過20句錄音等少量語料,就可訓練出高相似度的聲音模型。模型通過短時間訓練完成“克隆”,保持了較高的MOS值(中文普通話場景下,相似度≥90%),還原度高。TTS技術上線DUI開放平台後,使用更便捷,提供API、SDK接入方式,滿足標準化的服務要求。

技術的升級是漸進的,思必馳充分利用基於Attention的機制,及遷移學習技術,提升了聲音復刻的效果,改善用户體驗。受限於較少的數據量,如何保證穩定輸出是訓練模型時要面對的挑戰。但在未來,少樣本音色克隆仍是研究趨勢。

復刻的聲音 還安全嗎?

以智能語音技術的另一項黑科技——“聲紋識別”來作為參照。人的“聲紋”是類比指紋一樣獨一無二的存在,常被用作身份驗證和解鎖。常見的支付寶、微信的聲音鎖背後都是聲紋技術。

“克隆”的聲音可以 “瞞過”聲紋喚醒嗎?是否會有安全隱患?

常規聲紋解鎖,使用“復刻”的聲音確實能解鎖設備。但當思必馳在聲紋技術中增加了反欺詐技術後,聲音復刻便無法闖關帶有防欺詐的聲紋,安全性得到保障。

“克隆”專屬聲音,不僅是新鮮感、娛樂性,更是AI技術拓展應用惠及到了普通大眾,能克隆出媽媽聲音的音箱帶給了孩子更多陪伴。

 

 

責任編輯: WY-BD

責任編輯: WY-BD
人家也是有底線的啦~
廣告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆萬鈞版權聲明
違法信息/未成年人舉報:010-85181169     舉報郵箱/未成年人舉報:jubao@tomonline-inc.com