王士进
科大讯飞 | 讯飞研究院研究主管

语音识别的下一步

 王士进:大家下午好,我是科大讯飞的研究主管王士进,刚才非常感谢,因为我们看到出门问问的一些车载产品以及语音的一些知识给大家做了一些基本科普,所以我今天前面一节我可以比较快的去过,后面我们会讲一下讯飞,大家可以看我的标题“语音识别的下一步”,这个当然有一些标题有些标题党的意思,固然是为了吸引大家眼球,但确实是我们讯飞对智能语音交换、语音交换里面所可能包含的更多的人工智能技术以及一些总结和思考。

下面我们先开展我的报告,这就是我刚才说的要快速过的一个,就是说我们讲的这个智能语音技术,我们先看一张语音技术的全景图,因为我们知道语音技术它一般包含识别、合成、评测和理解。这个理解的话,我们指的是把自然语言能够转成一些指令,刚才大家也看了问问他们的,包括我们讯飞的语点也好、输入法也好或者是语音C也好,它可以把语音的文本后变成一些指令。

那么从合成来上大家应该比较清楚,是相当于说我们把一段文本给机器,它可以把一段语音说出来,那么识别也是这样的,识别的话就是说你给它一段语音,它能够知道你说的是什么,进而它还能够知道这句话是谁说的,或者说这个人说的有没有口音。那么这个评测就是说,我们知道在很多语言学习的场景下,在你学习了新的语言的时候,其中有一个非常重要的因素,就是说你这个翻译也好或者是内容也好,说的好不好,好。

这一页我就快速过去,下一页我准备讲的是语音识别应用的五个难题,那么在讲五个难题之前,我先讲一个概念,因为大家刚才看到很多关于语音控制的一些vedio也好、例子也好,那么这个地方我要讲一下,因为我今天也是围绕这个语音识别来讲的,我要讲一下两个基本概念。第一个概念叫语音的听写,第二个概念叫语音的转写。

那么听写这个概念其实大家应该比较清楚,就是刚才讲的这些例子,包括比如说大家用讯飞输入法、讯飞语音助手的时候都会用到,那么这种场景是一种听写场景,听写的话你会非常清楚你所面对的是机器,所以说你无论是讲内容也好还是语速也好,你会按照机器的步骤去适合它。比如说如果你说一句话,你发现我们这个机器识别说的不对,那么有可能你会用更平稳的语速或者说用更准确的语音去说这个话。

转写是另外一个层面上的,转写就是说我们平常无论是在开会也好,还是我现在做报告也好,我不会认为我说的这些东西一定是要能够被机器所识别出来,所以说我们人和人之间交流说的话,其实有很多机器识别(至少是前期的语音识别)所做不到的。

第一点就在于方言和口音,这个地方大家应该比较清楚,就是我现在自己觉得普通话比较好,但其实很多场景下的话,即使你在说普通话的时候你也会带着很多口音,那么有些时候甚至口音会超过你普通话原来的语音。

第二点就是专业词汇,这个地方大家比较好理解,可能有很多跟其他的人工智能相关的场景也有这么一些问题,就是说我们两个人经常说我跟你不是在一个频道上,那么这个频道肯定是专业的领域,就是如果说你这个机器不知道讲的是一个专业的、技术性的报告,如果你不知道这样的,可能你的识别效果会非常差。

第三点在于说话的分离,比如说在我演讲的场景里可能并不是很重要,但是如果是在一个会议里面,大家可以感觉到这里面就比较重要,比如说会议里面我们有十个发言人,类似谁先说谁后说这样子的,那么这样的话如果说你机器只是简单的把语音变成了文字,那么可以想象你后期要整理的工作会非常多。

第四点在于交谈中的口语化,因为我们知道人和人之间是有很多不流利或者带口语这种现象的,这样情况非常多,我一会儿会举个例子。

最后一点就是造成的干扰,刚才我们前面的同学也说过,面对语音干扰有几种做法,一种做法可能就是把你的设备尽可能的靠近嘴去说,还有一做法我后面会提到,我们有一些技术的方法去解决这个问题。

那么我们先简单看一个我们人机交互中可能出现的小问题。

(视频)

然后就是在介绍我们这个系统背后的技术以及它的扩展里边,我先来简单讲一下我们这个系统是一个什么样的东西。这个就是跟我的标题一样的,我本次汇报要讲的就是我们讯飞听见的智能会议和演讲的一个识别系统。那么识别系统的话大家可以看,我们之前在很多其他的场景里,包括各种会议和各种演讲,比如说CCTV的这种对话栏目,都做了很多现场的尝试,包括现在全国有很多市场都在陆续铺这个东西。

那么这里边讲了一句话,就是我们在会议场景下识别准确率突破90%,这个地方就是我刚才讲的一个概念,因为我们讲语音识别的听写和转写。那么语音听写,刚才我说过就是在这种自然简单的命令场合下的话,无论是讯飞也好还是其他很多友商也好,识别准确率突破到95%一点困难都没有,虽然说各家做的细节不太一样,导致它的识别准确率会不太一样,但是在这种转写准确率以外,转写这件事情上讯飞是业界第一个能够把识别准确率做到90%,而且到目前也没有第二家能做到。

这是一个简单的演示,然后我们会讲后面的技术。

(视频)

刚才这个是一个简单的视频,所以大家看这个功能貌似很简单,很多软件也有,就是说能够把你的语音变成文字,能够使得你这种文字准确率尽可能高,但是这里面的话,能够在这种类似于这种人跟人或者是人在演讲的这类场景里面,能够把准确率做这么高,其实后面有很多相关的技术。

刚才的主持人提到的讯飞超脑,这里面的话就是讯飞目前做了很多这种产品,背后支持的技术都是由讯飞超脑提供的,讯飞超脑的目标,因为大家知道讯飞最早是做语音起家的公司,那么做语音起家的话,讲究的是四个字“能听会说”,听的话就是听到你说什么,会说的话就是能够把语音说出来。

现在的话我们希望除了这个功能以外,还要能够做到“能理解、会思考”,那么这一块的话,我们提到一个人工智能的概念,第一个是感知智能;第二个是认知智能。在讲这个之前的话我可能先简单的科普一下,我们把人工智能分成三个阶段:

阶段一:计算智能(这个大家比较清楚),在这个领域,其实计算机很早就已经超过人类了,它能够计算、能够存储、能够做的比正常人快很多。

阶段二:感知智能。就类似于这种语音识别或者是图象识别、人脸识别,类似于这种技术,它能够把你人眼睛能看见的、耳朵听见的,这种类似的技术就能把人的话智能的模拟出来。那么在这种场景下面的话,很多技术也已经逼近人或者超过人了。比如说我们讯飞的人脸技术,人脸技术在很多场景下可以做到99%以上。

阶段三:认知智能。认知智能其实是人工智能里面最难的技术,这里面就涉及到人类自然语言的真正理解。

所以说大家可以在前面看到,我们类似于最开始的sayslay×××讲的,就是自然语言理解,但其实那个理解包括像我们也好,还是其他很多厂家也好,提出来这个语音助手也有类似功能,它只是简单的一些能够把你语音文字能够转成命令,那么这个命令的话它应该通过一些语法做得会相对比较好,但是要能够真正理解人的语言还有很多工作要做。

那么刚才大家也看到了,就是说在车载也好还是在智能硬件也好、智能家具也好,会有很多这种语音交互的场景,这个地方我先介绍一下我们这个听见后面的支撑技术,其中有一个技术就是我们这个交互领域治理技术,还有一个是我们对于语言理解、认知相关的一些技术。

这一块我们提五个点:

第一点:远场降噪。这个大家很好理解,我后面会详细说。

第二点:方言的识别(我刚才提到的)。

第三点:全双工。大家可以看到我们刚才的视频里,由于你不能全双工、不能随时打断,在交互起来会有一些困难。

第四点:纠错。

第五点:多人对话。

我以一个智能家居为例,在一个家庭里面,或者说在一个会议的场景里面,你为了要实现语音的这种更准确的交互,那么麦克风正面相关的一些技术会很有用。

第一个是噪声的抑制,大家知道在很多的会议的场景下,它会有很多噪声,所以即使在家里面,在你说话的时候也会经常有人去说一些别的,那么我们现在这个麦克风正面的技术,可以使得我们这个识别的准确率达到90%以上(5米以上的距离)。

第二个是回声消除,大家可以明显感觉到比如说我在会场上讲的时候,其实这个回声还是比较大的,那么在语音识别里面,回声是一个非常重要的点,如果说你不能消除的非常好,那么这里面的识别率会降低很多。

第三个就是远距离,因为我们知道无论是在家居也好还是智能硬件也好,类似这种场景里面,就是你不可能跟设备那么近的去接触。

第四个就是声源定位,声源定位取决于你在任何一个地方讲,它能够知道你的位置,大家可以想象如果说机器能够知道你是在哪个地方说的,那么这个地方对你这个家居或者是其他一些东西会很有用。比如说你说要开一盏灯类似这样的,那么它可能会基于你的位置把你旁边那个灯给打开。

后面的sayslay×××我主要从技术上讲我们听见系统的语音识别技术为什么那么牛。

第一点:我们在声学模型上做一些工作,声学模型的话大家如果说对语音识别和人工智能有一些概念的同学,你们就知道在很早的时候(2016年的时候),由邓立他们提出了DNN,同时最近几年提出RNN,然后讯飞又在这个基础上提出了叫做FSMN的这种框架,在这种框架下的话,它比传统的RNN的机械系统化可以提升30%以上的准确率,大家可以看到我们在演讲、即兴发言和自由讨论里面,都有非常明显的一些提升。

第二点:面向口语化,大家可以看到我刚才讲的第三个难点(口语化的难点),由于我们使用了这种篇章的基本语言模型,以及针对口语化的一些建模,使得我们这样的解码相比传统(因为大家知道无论做语音识别也好还是做××也好,你需要用语言模型)相比原传统的语言模型要提升10%左右。大家可以看这是我们在刚才识别的基础上,再加上我们这个技术的话,可以再提10%。

第三点:是关于噪声的问题,我刚才讲到一点,如果说我们这个会场里面有输入到麦克风之内的话,那么它可以使得识别效率非常高,大家可以看到这个最后90%以上。

但是在很多会场或者是你设备在这的这种场景下,你并不一定保证有麦克风这种输入设备,那么即使没有设备的话,我们讯飞最新的技术通过这种DNN和CNN的网络,可以自动学习到这种抗噪的性能。那么大家可以看到,在没有这种多麦克风的情况下,我们也可以做到接近多麦的效果,88%—90%。

刚才讲这些技术,无论是硬件上(麦克风之内)也好还是在我们软件上(语音模型的建模)也好,它为了使得把语音能够更准确地转成文字,但是它们是从声学和信号层上去做工作。大家知道,就是如果说你要做一个非常好的系统,一定要从语意层面上去做。因为到后来大家比拼的就是一些细节,细节的话一定会涉及到语意。

那么讲到语意的话,如果说大家对人工智能或者说自然语言处理有一些经验的话,大家就知道讲到语意的话,就是你一定要知道语言包含的意思,意思在最早的时候(比如说在语意处理的时候),大家使用badfor×××去进行一些处理。那么最新的话大家应该比较清楚,都是用×××去做的。

所以说在区别语意的时候,这个地方我们先选了一个比较常见的场景,因为我不知道大家有没有参加过GRE的考试,在GRE里面有一个经典的题型,就是反义词。那么大家看到一个前面的词的话,那么它后面有四个选项,然后让你从里面挑出来一个,就是如果说你对它的语意分析得不准确的话,这个时候选择题你是很难做出来的,所以我们讯飞的技术相对于google原来提的×××技术,会有一个非常明显的提升。

那么我刚才讲了这个词的语意,词的语意并不能最终反应到我们识别接口的句子上,所以说我们讯飞超脑又做了另外一个工作,就是怎么能够利用词的语意和我的识别接口进行结合来产生最终有效的句子。大家看一下,我这里举一个例子,比如说我坐了差不多1小时的火车累坏了,或者说另外一句是我做了差不多1个半小时的作业累坏了。那么这个“做”,因为从声学上来说都是一样的,但是从语意上,我们使用的这种×××或者类似这样一些方法,使得我们能够精确的对你识别结果里面的一些从声学上造成的一些错误做出一些非常好的判断。那么在使用了这些技术以后,我们语音识别的整句的识别率可懂度可以额外提升20%。

大家可以想象这里面的意义,就是说大家即使都是90%以上的识别率,如果说大家以前用过语音输入法也好或者说类似的一些工具也好,你会看到在你整个句子里面,可能有极个别的这种词或者是字错了,但是这个错了以后会使得你改这个东西会很麻烦,一个语音可能你要听两三遍你才能够把这个错误的字给揪出来然后改掉。那么最早的时候有一些人帮我们做语音自然标注的时候,他们觉得不如我直接听完一遍以后马上敲出来,我非得一边听一下然后又改一下,这样效率还不高。

所以说我们这一块,就是基于整句的这种准确率提升,对于后面的会议也好、演讲也好,就是译后再编辑,那么这一块其实有非常大的一些能够提升人工的工作。

然后就是讲一讲我们在语音认识上,同时跟我们听见也有一些关系,因为我们听见的话,大家知道在很多中英文会议上,很多中英文会议的时候会涉及到一个同频的显示,你比如说我做的是一个中文报道,但是可能会有很多母语是英文的人也希望能够了解这个报告的内容,那么这一块的话,讯飞其实在语言翻译上也做了很多工作。包括2014、2015年在两次国际比赛上,都取得了一些非常好的成绩。

那么从这个地方来讲,就是还有一点问题,因为大家刚才也提到了一些语音合成的例子,那么我如果涉及到要把我讲的中文能够翻译成英文让别人去听,那这里面有一个问题,就是听众听到的英文的合成音并不是我本人的声音,那么你可能听到的是林志玲的也有可能是郭德刚的,但听到的肯定不是我王士进的。

所以说这里面讯飞还做了一个技术,这个技术叫个性化的合成技术,合成技术的话能够使得模拟出来你本人的语音。那么这个地方话,我们临时做了一个小小的例子。

(视频)

所有我刚才讲到的我们关于硬件的解决方案,关于软件的解决方案,以及关于我们后面人工智能一些语言处理上的解决方案,那么都在我们讯飞语音云的开放平台里,那么我们其实也欢迎有更多的开发者和友商能够参与进来,能够共同促进语音这个行业的发展。

主持人:王总请留步,我们看一下大家的提问,刚才的实时语言听写功能非常让人印象深刻。我们看到很多提问,比如说刚才有一个问题提到说声文和人脸的元素结合,比如说完整的用户×××,这个你们是有考虑过的?

王士进:这个地方因为涉及到PPT的时间的因素,我把原来那节就删掉了,因为大家知道关于会议的话题,因为它涉及到很多人参与,而且将来的话其实很多人可能是在不同的地方,不一定大家都在一个会场里参与进来,所以说这个地方话就是说人工怎么去注册进来,这是一个问题。

其实这个问题的话,跟我们比如说你登录网上银行等类似于这样的一些操作,比如说你能够登录进小区,其实有很的相似的地方。那么这个地方的话我们讯飞的解决方案就是结合人脸与声文,首先来说大家都知道人脸它的准确率也还蛮不错的,然后我们讯飞在声文(在国家的层面)上做了很多工作,包括中国的这种声文库以及基于这种库类似于检索和确认的应用。那么我们现在一些demo的话基于这个声文和人脸可以做到比较好的一些应用,包括我们现在讯飞员工上班打卡,现在也是基于声文和人脸的识别。

主持人:第二个问题,我刚才看到了其实你们在PPT里面有一个不同的硬件的一些解决方案,我想知道的就是讯飞是自己提供解决方案,它会不会自己去做这一系列产品呢?(对于你们自己来讲)。

王士进:目前来说,我们讯飞关于听见会议系统,其实软件、硬件包括后面的服务都会去做的,然后大家可以看到,其实最重要的一个硬件就是会议的多麦克风制链这个技术,这个技术实际上因为会场上有噪声也好、回响也好还是说有不同的角度进来的语音也好,然后后面的服务其实涉及到我刚才提到的比如说我们除了能够把语音变成文字以外,对这个里面比如说是谁说的,话者1、话者2、话者3,同时我们这个技术还能够把人员做理解和区分,使得会后的编辑可能会变得更简单。

提问:在这个问题上有一点我特别想了解,比如说你们自己会提供这样的一个服务的解决方案,那这时候有没有可能,比如说因为现在有很多的智能穿戴设备,比如说手环,我手环上虽然可能本身是没有屏幕的,那我有可能类似于借助你的STV语音服务之后能联网。

王士进:这个没问题,其实我刚才那个最后一页也提到了,就是我刚才提到一些技术,无论是这种硬件相关技术、多麦克风制链技术还有我们最新的这个识别引擎,还有一些语音技术,其实在我们这个讯飞语意平台里面都提供。

提问:是免费的吗?

王士进:免费的。

提问:我最后一个问题,其实我特别想了解,就是我刚才开场的时候其实提到了,像我们知道近几年AI的快速发展,其实有一个很典型的例子,就是google它图像识别猫这个技术,但是我不知道在语音这个层面是否能做到类似于我们把1亿条的语音的语库,然后让机器自动去学习、深度学习来判断出来,而不是我们给它指定目标和指定一些限定的算法。

王士进:你这个问题确实非常好,因为最早的时候无论是做语音识别也好、做图像识别也好,这个在行业里面叫做×××,就是说我给你这个标记,然后告诉你这个数据,然后你自己去学习。那么现在的话,其实无论是从图像也好还是语音也好,大家做的都是轻监督或者是无监督的训练,能够自动的用我原来已有的这种系统把它变成文字,同时进行自动的迭代式的跟进,使得你这个系统尽量有少的人工参与情况下,能够把这个系统变得智能。

提问:所以其实现在是有在做这样的尝试?

王士进:是的。

相关视频