你的声音,说一句话就能被克隆

王纳

2018年06月04日09:22  来源:广州日报
 
原标题:你的声音,说一句话就能被克隆

  声希科技联合创始人钟静华、CEO孙立发博士、CTO李坤(左起) 广州日报全媒体记者轩慧摄

  仿佛一夜之间,建立在声音之上的语音科技就要全面进入我们的生活,你只要会说话,就能指挥身边的所有智能产品。

  人的声音是极具个性的,而现在,声音也能被转换,而且学习起来只需“一句话”的时间?这种声音的魔法,到底有何奇妙之处,又能为人类做些什么呢?为此,广州日报记者专访了目前在语音转换领域国际排名第五的孙立发博士。

  低沉男音秒变可爱声线

  孙立发博士,毕业于香港中文大学,他在2016年提出的“基于音素后验概率的语音转换方法”,如今在语音操控领域被广泛应用,该项论文2016年获得国际顶级会议ICME最佳论文奖,如今他跟两个博士同学在深圳创立了声希科技。

  今年5月10日,在文博会主论坛之一的数字出版高端论坛上,科大讯飞副总裁章继东在讲坛上是这样介绍语音转换技术的——“我只要给机器念一段15分钟的故事,以后机器就可以模仿我的声音,给我的孩子念各种各样的故事了。”

  语音转换真的这么神奇吗?孙立发博士回答说:“是的。”孙立发博士是2018年国际语音转换比赛全球第五名,他的技术特点是“一句话极速克隆”。就是说,只需要提供A的一句话,对机器进行训练,机器就能把B说的每一句话,变成A的声音。而且,无论任何语种、任何内容都可以转换。

  在孙立发博士的办公室里,孙立发给记者展示了他们正在测试的一款手机APP,孙立发用低沉的男中音说了句:“你好,我是志玲。”几秒钟之后,手机马上用志玲姐姐那标志性的可爱声线,说出了“你好,我是志玲”。

  已可应用于多种场景

  科技的目的是让人们的生活更加便利,语音转换能用来做什么呢?孙立发博士给记者介绍了一系列语音转换技术的应用场景。

  语音转换可以用在电影配音上。比如说,一些港星来内地发展,但普通话说得不够好,这时就可以用他的声音来训练机器。当机器成功克隆了他的声音时,就可以把其他人的普通话变成他原本特有的声线。也就是说,周星驰如果再当男主角,影片在内地发行就没有石班瑜什么事了(注:周星驰电影的普通话版本大部分是石班瑜配音)。

  语音转换可以用来打造个性化的语音助手和智能硬件。比如让siri用你爱人的声音,让家里的智能音箱用你偶像的声音,给爸爸妈妈买的陪伴机器人用你的声音说话……

  语音转换技术可以用在手机游戏里增加角色代入感。比如当你玩王者荣耀,用程咬金这个英雄时,你跟队友说话时就会变成粗放的声线,用小妲己这个英雄时,又会变成可爱的声音……

  语音转换可以用来克隆名人的声音,用在有声书的领域。同时,还可以用在动漫COSPLAY,这样不仅仅外貌忠于原著角色,连声音也可以跟原著一模一样了。

  语音转换还可以用来做语言学习。在孙立发的创业团队里,另一创始人李坤博士专攻的就是语言学习,两人把语言学习和语音转换进行了结合。他们做了一个英语纠错的APP,你说英语,它就能识别你的发音,并精确定位出发音错误的地方,然后机器会用你自己的声音再准确地念一次这个单词。孙立发说:“我们跟着自己的声音念单词,显然会比跟着其他人的声音念更加准确更加容易。”

  用声纹识别为声音“加锁”

  随着语音转换技术越来越成熟,人们无疑会对声音的安全更加担心了,如何识别哪个是“原版”的声音,哪个是“翻版”的?

  科技带来的问题当然还是靠科技解决。孙立发给记者指出了另外一种黑科技——“声纹识别”。

  孙立发创业团队的另一位联合创始人钟静华,她跟孙立发和李坤都是同门,钟静华专攻的方向就是声纹识别。钟静华指着孙立发说:“别担心,他们有多少数据来训练语音转换,我们就有多少数据来研究声纹识别。语音转换技术在发展,声纹识别技术也在发展,如今很多场景都用上声纹识别技术了。”

  声纹识别是一种通过声音判别说话人身份的技术,而在识别之前只要先做一个语音转换的检测,就能判定声音是否经过合成或者转换的。

  钟静华介绍,机器会从声音的频谱里提取一部分特征,然后把这种特征跟合成声音的相关特征相比对,看这种特征更像合成声音的特征还是真实录音的特征,就能做出判断了。钟静华告诉记者,“这是一种二分法,目前这种检测的准确率可以达到95%以上”。

  目前,声纹识别技术会应用在银行、社保等一些领域。在方兴未艾的智能音箱领域,声纹识别也被用作一种语音登录的手段。

  展望

  用语音转换“翻译”中风病人的话

  孙立发告诉记者,目前研究人员正探索将语音转换技术与医疗相结合。其中一个研究方向,就是把语音转换用在中风病患者身上。

  我们知道,口齿不清是中风患者的表现之一,家人和医生往往因此很难与病人沟通。而通过语音转换技术,就可以用中风病患者的声音来训练机器,让机器能最终识别、理解中风病患者所要表达的意思,然后再用清晰的声音将其意思表达出来。这就解决了中风病患者与人的沟通难题了。

  孙立发说,这只是目前正在研究的应用场景之一,未来还会有更多的场景能用到语音转换技术,“科学技术的发展是不可逆的,它终将越来越成熟,最终造福人类”。

  今年7月,声希科技将作为深圳机器人协会会员亮相深圳蛇口价值工厂举办的零一科技节,这是全球首个全场景浸入式科技展,观众届时可以现场一睹语音转换的魅力。

(责编:谷妍、邓楠)