你的聲音,說一句話就能被克隆

王納

2018年06月04日09:22  來源:廣州日報
 
原標題:你的聲音,說一句話就能被克隆

  聲希科技聯合創始人鐘靜華、CEO孫立發博士、CTO李坤(左起) 廣州日報全媒體記者軒慧攝

  仿佛一夜之間,建立在聲音之上的語音科技就要全面進入我們的生活,你隻要會說話,就能指揮身邊的所有智能產品。

  人的聲音是極具個性的,而現在,聲音也能被轉換,而且學習起來隻需“一句話”的時間?這種聲音的魔法,到底有何奇妙之處,又能為人類做些什麼呢?為此,廣州日報記者專訪了目前在語音轉換領域國際排名第五的孫立發博士。

  低沉男音秒變可愛聲線

  孫立發博士,畢業於香港中文大學,他在2016年提出的“基於音素后驗概率的語音轉換方法”,如今在語音操控領域被廣泛應用,該項論文2016年獲得國際頂級會議ICME最佳論文獎,如今他跟兩個博士同學在深圳創立了聲希科技。

  今年5月10日,在文博會主論壇之一的數字出版高端論壇上,科大訊飛副總裁章繼東在講壇上是這樣介紹語音轉換技術的——“我隻要給機器念一段15分鐘的故事,以后機器就可以模仿我的聲音,給我的孩子念各種各樣的故事了。”

  語音轉換真的這麼神奇嗎?孫立發博士回答說:“是的。”孫立發博士是2018年國際語音轉換比賽全球第五名,他的技術特點是“一句話極速克隆”。就是說,隻需要提供A的一句話,對機器進行訓練,機器就能把B說的每一句話,變成A的聲音。而且,無論任何語種、任何內容都可以轉換。

  在孫立發博士的辦公室裡,孫立發給記者展示了他們正在測試的一款手機APP,孫立發用低沉的男中音說了句:“你好,我是志玲。”幾秒鐘之后,手機馬上用志玲姐姐那標志性的可愛聲線,說出了“你好,我是志玲”。

  已可應用於多種場景

  科技的目的是讓人們的生活更加便利,語音轉換能用來做什麼呢?孫立發博士給記者介紹了一系列語音轉換技術的應用場景。

  語音轉換可以用在電影配音上。比如說,一些港星來內地發展,但普通話說得不夠好,這時就可以用他的聲音來訓練機器。當機器成功克隆了他的聲音時,就可以把其他人的普通話變成他原本特有的聲線。也就是說,周星馳如果再當男主角,影片在內地發行就沒有石班瑜什麼事了(注:周星馳電影的普通話版本大部分是石班瑜配音)。

  語音轉換可以用來打造個性化的語音助手和智能硬件。比如讓siri用你愛人的聲音,讓家裡的智能音箱用你偶像的聲音,給爸爸媽媽買的陪伴機器人用你的聲音說話……

  語音轉換技術可以用在手機游戲裡增加角色代入感。比如當你玩王者榮耀,用程咬金這個英雄時,你跟隊友說話時就會變成粗放的聲線,用小妲己這個英雄時,又會變成可愛的聲音……

  語音轉換可以用來克隆名人的聲音,用在有聲書的領域。同時,還可以用在動漫COSPLAY,這樣不僅僅外貌忠於原著角色,連聲音也可以跟原著一模一樣了。

  語音轉換還可以用來做語言學習。在孫立發的創業團隊裡,另一創始人李坤博士專攻的就是語言學習,兩人把語言學習和語音轉換進行了結合。他們做了一個英語糾錯的APP,你說英語,它就能識別你的發音,並精確定位出發音錯誤的地方,然后機器會用你自己的聲音再准確地念一次這個單詞。孫立發說:“我們跟著自己的聲音念單詞,顯然會比跟著其他人的聲音念更加准確更加容易。”

  用聲紋識別為聲音“加鎖”

  隨著語音轉換技術越來越成熟,人們無疑會對聲音的安全更加擔心了,如何識別哪個是“原版”的聲音,哪個是“翻版”的?

  科技帶來的問題當然還是靠科技解決。孫立發給記者指出了另外一種黑科技——“聲紋識別”。

  孫立發創業團隊的另一位聯合創始人鐘靜華,她跟孫立發和李坤都是同門,鐘靜華專攻的方向就是聲紋識別。鐘靜華指著孫立發說:“別擔心,他們有多少數據來訓練語音轉換,我們就有多少數據來研究聲紋識別。語音轉換技術在發展,聲紋識別技術也在發展,如今很多場景都用上聲紋識別技術了。”

  聲紋識別是一種通過聲音判別說話人身份的技術,而在識別之前隻要先做一個語音轉換的檢測,就能判定聲音是否經過合成或者轉換的。

  鐘靜華介紹,機器會從聲音的頻譜裡提取一部分特征,然后把這種特征跟合成聲音的相關特征相比對,看這種特征更像合成聲音的特征還是真實錄音的特征,就能做出判斷了。鐘靜華告訴記者,“這是一種二分法,目前這種檢測的准確率可以達到95%以上”。

  目前,聲紋識別技術會應用在銀行、社保等一些領域。在方興未艾的智能音箱領域,聲紋識別也被用作一種語音登錄的手段。

  展望

  用語音轉換“翻譯”中風病人的話

  孫立發告訴記者,目前研究人員正探索將語音轉換技術與醫療相結合。其中一個研究方向,就是把語音轉換用在中風病患者身上。

  我們知道,口齒不清是中風患者的表現之一,家人和醫生往往因此很難與病人溝通。而通過語音轉換技術,就可以用中風病患者的聲音來訓練機器,讓機器能最終識別、理解中風病患者所要表達的意思,然后再用清晰的聲音將其意思表達出來。這就解決了中風病患者與人的溝通難題了。

  孫立發說,這只是目前正在研究的應用場景之一,未來還會有更多的場景能用到語音轉換技術,“科學技術的發展是不可逆的,它終將越來越成熟,最終造福人類”。

  今年7月,聲希科技將作為深圳機器人協會會員亮相深圳蛇口價值工廠舉辦的零一科技節,這是全球首個全場景浸入式科技展,觀眾屆時可以現場一睹語音轉換的魅力。

(責編:谷妍、鄧楠)