新闻动态   News
你的位置:首页 > 新闻动态 > 行业新闻

【推广】典声员工风采-典声家庭背景音乐系统率先使用语音交互功能!!

2017-01-07 09:22:11      点击:

在许多国外科幻大片所描述的将来日子中,运用语音方法来控制家电的炫酷场景无处不在。比如在《美国队长2》中,神盾局的头子用语音控制虚拟桌面、窗布和电视;在《钢铁侠》系列影片中,男主角回到家今后,说声想喝咖啡,咖啡机便开端冲咖啡;在《碟中谍4》中,阿汤哥经过用语音来开灯和开电视。

            科幻片中这么的将来并非凭空想象,国外的IT巨子已先后以智能家庭商品与语音相联系的方法进入智能家庭范畴:谷歌收买NEST规划智能家庭,不断强化Google Now的语音进口;苹果HomeKit智能家居渠道与Siri也不断加强融合;微软近期也发布语音帮手Cortana,为它在智能家庭范畴拓展交互进口。从这些国外科技大佬们对语音工业的注重和投入,可以看出智能语音与智能家庭的融合是大势所趋,业界普遍认为语音作为人类信息最天然、最快捷的交互方法,必将成为将来智能家居设备中的主要组成有些。在国内,语音巨子科大讯飞也在上一年8月宣告进军智能家庭市场,并于本年3月携手京东成立合资公司,宣告双方将在智能家居和语音技能范畴打开全部协作。 
         跟着国内外巨子们对语音交互范畴投入的增加,语音中心技能正逐步老练,从前的技能瓶颈亦在渐渐被打破。这其间语音辨认技能是语音交互的根底与中心,“语音辨认”技能相当于给计算机体系装置上“耳朵”,使其具有“能听”的功用。该技能经过语音信号处理、语音特征处理、模型练习及解码引擎等杂乱过程,使机器终究可以将语音中的内容、说话人、语种等信息辨认出来。 
        了解了语音辨认的根底内容和体系框架今后咱们来看看,语音辨认技能要在家庭布景音乐日子中真实有用,有必要要过哪5关? 

 一、 语音唤醒:真实解放双手

       因为功耗等方面的约束,智能设备很难24小时都保持在激活状态。因而,要想在家里自由地控制智能家居设备,咱们还需要能即时“唤醒”功用,也即是给智能设备加入“语音唤醒”技能。

      语音唤醒,是指经过富含特定唤醒词的语音输入来“触发”语音辨认体系以完结后续的语音交互。经过该技能,任何人在任何环境、任何时刻,不管是近场(0.5米以内)仍是远场(2~5米),面向设备直接说出预设的唤醒词,就能激活商品的辨认引擎,然后真实完结全程无触控的语音交互。


      除了说单个唤醒词完结唤醒外,更天然快捷、在技能上更具有挑战性的交互方法是在接连语流中带上唤醒词,以完结唤醒商品并一起完结控制的作用。如今,语音唤醒计划已在有些商品中取得成功应用,比如在典声家庭布景音乐设备中装置的讯飞语音帮手中,说出“我要听刘德华的歌曲”就可以唤醒设备并主动完结人名辨认与播映音乐。


二、 功率:又快又准

         近年来,跟着深度学习理论的爆发式开展及其在语音辨认范畴获得的显著作用,一起Kaldi等开源语音辨认东西也在工业界和学术界逐步普及,语音辨认的门槛继续下降,许多公司都具有了语音辨认的才能及有关商品,但本来许多运用过Siri的国内用户都会有这么的感受: Siri的反响太慢,说出一句话一般要等待好久才能显现结果,别的,精确率也不高,离好用还有很远的间隔。

         对于语音辨认精确率和响应速度的疑问,科大讯飞继续在中心技能和商品特性上做出立异,在把世界领先的深度神经网络技能引进语音辨认的根底上,根据深度神经网络的语音增强算法对输入语音进行“辨认关键信息无损”的降噪,经过海量练习语料根底上的高精度声学模型和言语模型练习,并联系极致的解码引擎工程技能,完结了在很小延迟的状况下,做到将去掉初始语音的噪声搅扰和辨认简直一起,大大提高了语音输入的响应速度和用户体会,在大词汇接连语音辨认率上可以到达95%以上,指令词辨认率到达99%以上,解码引擎可以在用户说完话40毫秒以内给出结果,真实完结“秒懂”。

三、 间隔:远场辨认技能打破间隔瓶颈

        近场辨认技能如今现已对比老练,如今手机上运用的语音输入功用就归于近场辨认技能,用户有必要在离手机对比近的间隔内说话,但在智能家居环境中,用户和智能终端之间的间隔被大大增加了,用户能随意用语音控制智能家居的一个必要条件即是在不管你在客厅哪个旮旯宣布指令,设备都能精确的辨认,语音辨认技能有必要打破间隔的妨碍。 
        如今室内的语音交互受到布景噪音、别的人声搅扰、回声、混响等多重杂乱因素影响,致使辨认率低乃至无法运用,只能在相对安静、近间隔的环境下运用。而远场辨认技能将可以极好的处理这些疑问。

         科大讯飞于2015年3月发布远场辨认技能,是如今唯一支撑超越5米的语音辨认技能,打破了语音交互间隔瓶颈,大幅度改进了语音交互的自由度。该技能运用麦克风阵列的空域滤波特性——在方针说话人方向构成拾音波束(BeamForming),按捺波束之外的噪声,联系共同的去混响算法,最大程度的吸收反射声,然后到达去掉混响的目的,用户在客厅的恣意旮旯经过语音控制智能家电已成为实际。 


         四、个性化:越来越懂你

每个人在说话时,口音、语速、口头禅都不相同,那么家里的智能设备只会辨认一些根本词句显然是远远不够的,它们有必要要更懂你。比如,懂你的口音、方言、口头禅以及时不时蹦出的专业词汇等。


         让智能设备习气每个人的运用习气可能吗?答案是肯定的。这儿要用的到即是语音辨认的别的一项关键技能——个性化辨认技能。个性化辨认指的是语音辨认体系具有主动学习并习气用户运用习气的才能,你用的越多,它越懂你。一般来说,个性化辨认包含发音和言语两方面。其间发音个性化主要是指体系对用户语速、口音等发音习气的学习,而言语个性化主要是指体系可以对用户的特定词汇(例如人名、地名、口头禅、专业词汇等)具有非常好的辨识性。


         如今科大讯飞的个性化辨认技能已能对于每个人的爱好点、常识布景等来进行个性化言语模型建模,然后精确辨认出个性化的词汇内容。今后你用的越多,语音辨认体系就会越懂你。


          五、方言:普通话标不标zun也照样能用

众所周知,我国的语音及言语博学多才,尽管国家在推行标准普通话方面竭尽全力,可是我国真实把握标准普通话的人群份额仍是对比低的,而我国的口音景象则是纷繁杂乱,乃至会呈现同城市中都有不一样口音的状况。因而,当这些带有或轻或重口音的人群在运用语音输入时,如果按一般的方法运用标准普通话数据进行模型的练习,就会发生很严重的适配疑问,然后影响语音输入时的辨认作用。


         “方言”如今也不再是语音辨认的妨碍,得益于各类方言丰富的音频数据、特别词汇、发音景象等专业资本以及充分运用深度神经网络的自学习特征,如今,讯飞输入法现已连续支撑四川话、河南话、东北话、天津话等15种方言辨认,这些方言辨认才能相同适用于家庭布景音乐环境中。今后,不管你运用普通话仍是方言,不管你说话语速快仍是慢,普通话标不标zun,在家里都能自由地运用语音控制家庭布景音乐设备
       
        典声家庭布景音乐跟着语音辨认技能在间隔、功率、个性化、方言、唤醒等多方面一一打破有用瓶颈,为所欲为“声”控家庭布景音乐的年代现已到来.