首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

AI声响皮肤用东北话说假设日子欺骗了你不要诉苦抱我

2020-01-17

南都讯 记者陈志芳 朱芳圆 12月21日,极客公园立异大会十周年在北京举行未来趋势论坛。搜狗CEO王小川在会上说,语音辨认技术处理难点有语义了解、智能降噪、语音组成等。

王小川现场展现了一段谈论视频和语音转化界面,视频闪现有多名谈论者、说话搀和了中英文、掌声和笑声等语音辨认难点。王小川说,其间,语音转化需求完结差异不同人声的人声分别,供应掌声、笑声等其他动静的辨认来帮忙观众了解内容,一同处理中英文搀和的难题。

在上述的辨认难题反面,还有其他的技术难点,如在喧哗环境中怎样让人和机器听得更清楚?王小川说,传统的降噪处理通过麦克风矩阵来处理,核算多个麦克风的中心数值和信号处理,现在的降噪处理则可通过人工智能方法来学习4万余种真实噪音,参与新的降噪算法,使机器有才干去分辩各种噪音并智能降噪。

其他,语音组成也是未来AI语音辨认的展开趋势。王小川说,现在基础的语音组成现已较为广泛,如语音组成林志玲、高晓松的动静,但在长篇演说、音频付费节目等运用中,怎样让语音组成脱离机械播报,成为有情感的扮演是一个难题。

演说者与转述师的动静融合。主办方供图。

对此,AI通过提取动静特征、添加“动静皮肤”的方法来处理,王小川举例说,这需求一名担任读出演说者文章的转述师,AI能提取演说者的动静特征和转述师的动静心境,两者的结合就相当于给演说者的动静披上了“动静皮肤”,变成有心境的动静。王小川现场演示了用蜡笔小新、高晓松、东北大姐的动静说出了“假定日子欺骗了你,不要抱怨,抱我”。

王小川介绍,搜狗也在从语音变声走向视频组成,比如AI组成主播。在这方面,现在完结的效果有语音唇动同步生成、展现较为丰盛的表情、多言语多场景播报、对话才干等,搜狗也推出了第六代统筹技术——央视的天气预报主播,能展现“主播”大角度、大幅度的组成动作画面。

AI组成主播。主办方供图。

王小川认为,未来言语AI的展开趋势是“天然交互+知识核算”,天然交互需求运用语音、图像、视觉等技术,使人与机器能通过语音、图像、手势进行交流,其他,言语AI更难的当地在于知识核算,需求完结翻译、问答、对话等才干,天然交互和知识核算的结合最终将展开成“智能助理”,苹果的Siri就是其间一例。

热门文章

随机推荐

推荐文章