发布供求信息     推广企业产品
管理企业商铺     进入商务中心
用户:   免费注册
密码:  
 
当前位置: 首页 » 资讯 » 原创专栏 » 正文

“万、柯”访谈录之语音识别

放大字体  缩小字体 发布日期:2016-10-02  作者:万新宇  浏览次数:1046

受访者:柯玉鹏,某汽车厂汽研院总设计师。简称:柯

访问者:万新宇,简称:万

万:柯总,上次谈开车安全时你说到语音识别的重要性,就是“君子动口不动手”,今天来聊一下?

柯:好的,语音识别(ASR)是一项古老的技术,1952年“贝尔”就研制出识别10个英文数字发音试验系统。PC时代的IBM语音输入也有20多年了。苹果的siri来源于更早的军方监听项目。

万:俗话说:人有人言,鸟有鸟语,可是“鸡同鸭讲眼碌碌”(注1),无法沟通。

    

柯:ASR是一种让机器听懂人类语言的技术,它是人机对话的一项突破。

万:ASR是如何实现的,能否科普一下?

柯:ASR是模式识别的一个分支,一种复杂的处理机制。先说ASR的历史。大规模ASR研究从1970年开始,先在小词汇量、孤立词的识别上取得进展。80年后转向大词汇量、非特定人连续语音的识别。

万:我们就从最简单开始,语音是怎么变文字的?

柯:好,从ABC开始。声音是一种波。ASR是首先把声波前后的静音去掉,然后进行声音分析,就是分帧,把声波切成一个个小段段,每段称为“帧”。当然不是拿刀切,而是用专门工具-移动窗函数。

万:这是ASR的第一步?

柯:分帧后,要根据人耳的特点做波形转换,把每一帧变成一个多维向量(注2)。

万:这第二步,就包含了语音的内容信息了?

柯:对,这个过程叫声学特征提取。这样,声音就成了一个12行(这里假定声学特征是12维)N列的矩阵,成了一个观察序列。N为总帧数,你看图中,每一帧都有一个12维的向量,色块的深浅表示向量值的大小。

万:那如何把矩阵变成文本呢?

柯:先说两个概念:一个是音素;一个是状态(比音素更小的单位)。一个音素含三个状态。接下来三步走:首先把帧识别成状态;其次把状态组合成音素;最后把音素组成单词。每个竖条代表一帧,若干帧对应一个状态,三个状态合成一个音素,若干音素组成一个单词。

万:只要知道每帧语音对应哪个状态,语音识别就出来了?

柯:是的。可惜没有明确的某帧对某状态,只能看概率,某帧对应哪个状态的概率最大,那这帧就属于那个状态。

万:那,这些用到的概率从哪儿来呢?

柯:事先有个“声学模型”里存了很多的参数,通过它,就知道帧和状态对应的概率。获取这一大堆参数的方法叫训练。

万:这好像有一个问题,每一帧得到一个状态号,整个语音就会得出一堆的状态号来?

柯:是的,假设有1000帧,每帧对1个状态,3个状态组合1个音素,会有300多个音素,其实这段语音没这么多音素。实际上相邻祯的状态大多数都相同才合理。

万:怎么来解决这个问题呢?

柯:最常用的方法是隐马尔可夫模型(HMM),我们戏称它“好妹妹”。

万:你的“好妹妹”是什么仙女?

柯:玩笑话。一般来说,时间和状态都离散的过程被称为马尔科夫链。

万:有些抽象。

柯:说个蛙跳的例子:水池中有N张荷叶,为1,2,3,……,N,即蛙跳有N个状态。青蛙所在荷叶,是目前所处的状态;未来的状态,只与现在所处状态有关,与以前的状态无关。这就是马尔可夫性。

万:语音信号也有马尔可夫性?

柯:语音信号是可观测的,但观察到的只是大脑依据语法知识和言语需要(隐过程)发出的音素流(显过程)。“隐过程”通过“显过程”表现出来,可以通过“显过程”推测“隐过程”,它们之间有概率关系。

万:能否举个例子?

柯:一个经典的例子:一个乌鲁木齐朋友每天根据天气(下雨,天晴)决定当天的活动(自习,游玩,宅着)中的一种,我每天只能在微信上看到他发的“我前天游玩、昨天自习、今天宅着!”,那么我可以根据他发的微信推断乌鲁木齐这三天的天气。在这个例子里,“显过程”是活动,“隐过程”是天气。可以通过概率计算出天气状况。

万:我们的声音是一个物理现象,是由声带、喉咙大小、舌头位置多种作用的结果?

柯:是的。ASR的原理是将内部语音产生看作是“隐状态”,将声音结果看做观察的状态(显状态),观察到的状态序列与隐藏过程有一定的概率关系。用隐马尔科夫模型对这样的过程建模,这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程,以及一个与隐藏状态某种程度相关的可观察到的状态集合。

万:开始有点儿明白了。

柯:HMM是一个双重随机过程,一个是马尔可夫链(刚才蛙跳例子)是一个随机过程,它描述状态(隐状态转显状态)的转移。另一个随机过程描述状态和观察者之间的统计对应关系。通过一个随机过程去感知状态的存在和特性(天气,活动的例子)。

万:隐马尔可夫模型听着很高深,其实也简单?

柯:是这样,先构建一个状态网络,第二步,从状态网络中寻找与声音最匹配的路径。这样就把结果限制在设定的网络中,避免刚才提到的300多个音素的问题。比如设定网络只包含“今天是晴天”和“今天下雨”两个句子的状态路径,最终识别出的结果必是二居其一。

万:如果要识别任意文本呢?

柯:那状态网络就得搭建的足够大,包含任意文本就行了。但网络越大,识别的准确率就会下降。

万:状态网络是不是由单词级网络展开成音素网络,再展开成状态网络的?

柯:是这样的。语音识别过程就是在状态网络中搜索一条最佳路径,语音对应的这条路径的概率最大,称之为“解码”。

万:请对整个语音识别的路径再归纳一下。

柯:好。ASR分两部分,训练和识别。训练是离线的,收集大量语音、语言数据进行信号处理,建立“声学模型”和“语言模型”;而识别过程是在线完成的,分为“前端”和“后端”两块儿:前端进行端点检测(去除静音)、降噪、特征提取等;后端用训练好的“声学模型”和“语言模型”对说话的特征向量进行解码,得到其中的语言信息。

万:我感觉语音识别的过程和人的认知过程有相似之处,都是通过“自我相似”的过程实现的,看见云彩,知道是云彩,看见一座山,知道是一座山,凭什么?就是“自我相似”,因为儿时在脑子里建立了云的模型、山的模型。

柯:上周日我带八岁的女儿下乡度假,她愣是不认识毛驴。

万:城里的孩子没见过驴,因为脑子里没有“建模”?柯:所以,看见也不认识它。ASR本质上也是“自我相似”。

万:你的意思是先在计算机里建立语音(语言)识别的模型库后进行逐个比对?

柯:大概意思差不多。三个步骤:1、特征提取(对听见的语音分析并建立模板)、2、模式匹配(与原有内存的模板比对)、3、参考模型库(查表选出特征最优的匹配模板)。

图片原理图

万:是不是ASR技术的最大突破就是隐马尔科夫模型的应用。

柯:是的。卡内基梅隆大学的李开复开发了第一个基于隐马尔科夫模型的大词汇量语音识别系统。严格来说,此后的ASR系统都没有脱离HMM框架。

万:我以为:语音训练数据的匹配和丰富性是推动ASR性能提升的要素,大数据时代来临应该是一个福音吧?

柯:是的,随着互联网快速发展,智能手机的普及应用,可以从多个渠道获取大量文本或语音方面的语料,这为ASR中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。

万:与机器进行语言交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。它的主要应用有哪些?

柯:除了我们上次聊到的开车时的安全需要,每天千千万万的人拨打运营公司的电话,进行出游预定、股票交易,与其它通讯媒体、企业和互联网进行交道,都离不开ASR。

万:语音控制比遥控器和手机更方便些,特别是智能家居领域?

柯:ASR技术这几年有了长足进步,特别是语音接口技术。通过它,可将语音识别和自然语言理解相结合,为全球物联网市场创造切实可行的信息入口。

万:好像百度、谷歌、苹果、Nuance、IBM等都是这一领域的“大牛”?

柯:对。其中IBM公司1997年开发出的汉语ASR系统,次年又开发出可识别上海话、粤语和四川话等地方口音的ASR系统。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。

万:我听说,就在一周前在美国的“国际多信道语音分离和识别大赛”上,以科大讯飞为主的中国团队获得了冠军?

柯:那是一个英语语音识别的专项赛事,已举办多次,是ASR领域里高难度的比赛。要在咖啡厅、公交车、街道等生活场景中,在高噪声、混响的干扰下准确识别英语语音的比赛。

万:而且是在6麦(注3)、双麦、单麦三个项目中夺魁!

柯:科大讯飞的语音输入法在国内一直处于领先位置,比如手机、呼叫中心、客户服务系统,包括各种各样的医疗、安全,越来越多的领域,已经有2.8亿的用户,每天有6000万人在使用。

  

万:使用ASR进行输入和控制,这玩儿意有一定前途,但是限于其它输入模式不方便时,比如智能家居、汽车上面、距离太远不便动手,或者手正忙着……

柯:ASR的下一步发展真正的难度在于语义识别,把语音准确的转化成文字还不够,而且还要听懂人类说什么。

比如说,男生:我们分手吧。

女生:她是谁?

这表达什么意思?语义识别才是皇冠上的宝石。

万:语义识别还需要哪些方面的努力?

柯:两个方面:一是硬件,特别是GPU(注4)通用计算的发展,有了强大算力,过去无法做到的现在可以做了;二是人工神经网络,特别是深度学习算法的应用,大幅度提升了语音识别的准确率,并且提供了语义识别的可行性。

万:语义理解是人机对话中革命性的东西。它集合了简单的机器控制,意味着报务业和窗口行业可以被取代。

柯:再一个就是机器翻译。如今机器翻译发展迅速,它的准确性、功能性、和达意程度都有很大提高。

万:专业译者认为俏皮话、句子的委婉变化和寓意的细微差别对计算机来说过于复杂,机器无法充分表达出来。

柯:不对。现在机器翻译每天为2亿多人服务,翻译10亿多次,随着数据呈指数级增长,这一数字只代表一个下午的翻译量,然后是一个小时的翻译量……大量语言数据不断被更新,被标注。数据量指数增长,准确度也将成倍增加。

万:这就是大数据+人工智能=智能翻译?

柯:未来10年内,一个小小的耳机就能用母语传递你听到的外语,听到的不再是siri那样冰冷的机器声。由于生物声学工程的进步,与耳机相连的云端软件将使发言者的声音更人性化,并用你的母语表达。

万:是不是可以预言:ASR将进入工业、家电、通信、汽车、医疗、家庭服务、消费电子产品等各个领域?

柯:如今,通过CNN(卷积神经网络)与LSTM(长短时记忆模型)的混合建模,连接时序分类(CTC)训练已经做到了真实环境,日常非标准语言的识别。

万:听说,百度的ASR可以做到安静环境下97%准确率,超过正常人的听力,很了不起。

柯:就在上个月,李彦宏在百度联盟会议上,展示了嘈杂环境下对各地方言的识别。这是在深度学习对大量语音材料自动学习基础上,以前ASR需要人来控制,现在可以激起自我学习,进而理解人的意识,这是革命性的突破。

万:好像谷歌和百度都在数据库数据上占有优势?

柯:百度在上海的肯德基餐厅,利用ASR自由与人对话,点餐,这不是对固定指令的处理,而是人工智能直接与人对话,理解人的语言,这是真正的突破。

未来的快餐店可能只需十分之一的人手,把原料按规定投进机器就可。点餐、加工、送餐、收款均可由人工智能完成。

未来的超市只需要一个保安员,其它则由无人仓库加人工智能收银机完成。

万:今天的收获很大,使我对ASR有了一知半解的了解,能否推荐一本书进一步学习一下?

柯:好啊,由俞栋、邓力著,俞凯、钱彦昊等译的《解析深度学习:语音识别实践》你可以看看。它介绍了:深度神经网络—隐马尔可夫模型的训练和优化、特征表示学习、模型的融合、自适应等,是一本好书。

万:好的,一定买来啃一啃!

    

2016年9月24日于龙岗

备注与参考

注1:广东话:大眼瞪小眼。

注2:在数学与物理中,既有大小又有方向的量叫做向量(亦称矢量)。

注3:麦克风的简称。

注4:图形处理器。

参考:360百科。 

参考:张俊博《语音识别技术原理?》收录于知乎周刊

    

 
关键词: 语音识别 汽车安全
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论