发布供求信息     推广企业产品
管理企业商铺     进入商务中心
用户:   免费注册
密码:  
 
当前位置: 首页 » 资讯 » 驾驶技巧 » 正文

谁跟谁过不去?当车载语音“听不懂”人话

放大字体  缩小字体 发布日期:2016-12-12  来源:网易汽车  浏览次数:851
       每当深夜寂寞难耐时,工场菌总会默默地打开siri,然后默默地调戏它一番,然而每次对着它喊“退出吧”,它就一个劲儿地跟你死循环,就是不退出。然后工场菌总是默默地按下home键,默默地说一句“傻x”之后睡觉。
 
       上周,工场菌跟同事出去体验某品牌的智能后视镜时也遇到了点好玩的事,通过语音控制导航、拨号等一些操作还算顺畅,当问“附近有没有火锅?”时,差点没把工场菌吓懵,傻乎乎地找到1000多公里外的重庆去了。
 
       在工场菌的眼中,语音交互技术应该就像是钢铁侠家里的贾维斯一样,不然还交互个啥啊。然而无情的现实告诉我们,语音交互却是“山东大汉怒骂车载智能语音”。为啥好端端地就是听不懂人话呢,还能不能好好聊天了,“不要拨号”、“取消导航”这类指令却偏偏执行拨号、导航的操作。
 
       语音识别≠语音技术
 
       相信很多小伙伴都把语音识别当成了语音技术的全部,其实语音识别只是语音技术其中的一个分支。语音技术还有其他多种应用,比如说话人识别、语种识别、语音合成、音色转换、语音增强等等。
       比方说语种识别,管你阿拉伯语、英语还是汉语,它都能听懂,音色转换简单点说就是男变女、女变男。
 
       而语音识别呢,是当前发展最快、热度最高、大家生活中接触最多的语音技术。语音识别的进步代表着机器的听力发展,是人工智能的重要一步。说白了就是机器能听懂人话。
 
       车载语音为何“听不懂”人话
 
       人人都在说智能汽车,智能汽车大概可以这么理解,当汽车装上一个智能的大脑(系统),那么摄像头就变成了眼睛,各种雷达赋予了感知环境的能力,传感器差不多可以认为是神经网络吧,那么语音识别自然就是汽车的耳朵啦。
 
       不过,遗憾的是,这个“耳朵”似乎听力不太好。
 
       根据J.D.Power发布的《2016年美国新车质量调查》报告内容,在所有汽车买家所投诉的问题中,有23%的问题涉及汽车信息系统,而涉及语音识别系统的问题也占据了相当大的份额。
 
       负责美国汽车质量调查的副总裁瑞尼-史蒂芬斯(ReneeStephens)在接受记者采访时表示:“在我们看来,语音识别系统所引发的故障仍然是汽车消费者投诉首要问题。今年以来,汽车制造商在这一领域做出了一些改进,但行动进度仍比较缓慢。”
 
       事实上,在美国60后、70后以及千禧年和婴儿潮一代人中,车辆语音识别被称作是汽车最难使用的5大功能之一。在国内是个什么情况呢,有“山东大汉”足以一言以蔽之。
 
       那么,为何最“耀眼”的语音识别技术还是饱受诟病呢?
 
       早期的语音识别系统都依赖于数据库来执行语音指令,这些数据库中的数据比较简单、有限,比如星巴克等连锁店、xx加油站、xx酒店和xx景区等等的地理位置。但是在实际使用过程中,会出现许多机器难以理解的地名,还有各式各样的连人都不一定能听懂的方言,再比如当人们把“牛奶”读成“留来”,到底是机器错了还是人错了。而且,条目式的语音指令(机器能识别的固定的词组和句子)远远不能满足现实需求。另外,就算存个10000条指令,关键是谁记得住呢。
 
       如果你问“今天天气怎么样?”机器说,没问题,我能听懂,如果接着问“明天呢?”,机器还不跟你急。所以人工智能的思维也是需要的呀。
 
       此外,如果周边环境嘈杂那么对于语音识别系统来说就抓瞎了。有时候车载语音识别完全没手机好用,毕竟孩子啼哭的车内环境是不能跟安静的室内环境相比的呀。车内空间虽然小,噪音反而更大了,发动机噪声、风噪、外界环境噪音,再碰上车内要是几个人同时讲话,那对于语音识别来说就是“宝宝心里苦,宝宝不说”。
 
       用麦克风阵列降低噪音干扰
 
       既然车在语音的主要问题在于存在机器难以理解的词和车内的噪音,那么如何解决这个问题呢。
 
       对于噪音的干扰,目前采用比较普遍的解决方法是麦克风阵列,这个阵列是由不同方向的数个麦克风组成的。原理就像人的两个耳朵,这两个麦克风能够准确指出车内每一位发出声音乘客的位置。
 
       当你在车内开始说话时,第一个捕捉到你声音的麦克风会对声音进行定向,然后只识别这个特定方向传来的声音,这个麦克风也会成为这次语音命令的输入源,如果这个时候,隔壁的麦克风听到了副驾驶的说话声,并不会对此次输入造成影响。当阵列中的麦克风数量越多,其所定位的方位越狭窄,那么所受到的干扰就会越小。
 
       So,按照这个逻辑来看,意思是如果麦克风多到把驾驶员围成一个圈,是不是效果最好呢,不过成本可是个问题哦。
 
       数据库建模用于语音自我学习
 
       上面说了条目式指令,还有机器需要人工智能,那么把这两者结合起来是不是会好一点呢。既然无法穷举所有的语言规则,那么如果就建立一个语音模型,然后让机器自我学习。
 
       目前,国内语音技术做的比较好的科大讯飞就是这么干的。在科大讯飞的语音模型中,专门有一个模块是去判断一句语音命令里头的意图,在语句中寻找关键字,科大讯飞把这些关键字叫做“参数”。意图与参数,就构成了这条语音命令所要表达的信息。“我要去天安门”或者“天安门在哪”对于系统来说都是一样的,参数是“天安门”,“在哪”和“要去”是意图。
 
       那么,既然让机器自我学习就需要大量的“粮食”喂它呀,这个粮食就是大量的语音数据。比方说,每天人们都讲些什么话,有什么不同口音等等。通常这个数据都是及时T甚至更多。
 
       学会了一个词之后,再学习发音有什么不同,然后在一定的语境中去理解这些词,哪些是关键字,哪些是意图。通过机器对大数据进行分析、处理。
 
       So,云系统将会成为未来的主流趋势,依托大服务器群、大模型、大并发,云系统能提供更好的语音识别能力和语义分析能力。
  
       语音识别技术发展将会是一个缓慢发展过程。
 


本文章来源于网友分享,不代表本网站观点、立场及看法。本网站不对其真实性负责。
 
 
关键词: 车载语音
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

 
0条 [查看全部]  相关评论

 

 
技术支持: 都市科技