余晓隆:大家下午好,我是来自智齿科技的产品负责人,我叫余晓龙,今天我来跟大家分享的话题是智齿的产品,这个产品的重点是基于思想语言处理的机器人,就这个我们来讲一下语义分析的自然语音处理技术的现在和未来。
在这个之前我想看一下在座的朋友们有多少是在做机器人方面的自然语言处理的,举手我看一下。(比较少)
从AI的技术来说,到现在我们看到了它是进入了一个高速增长的时期,包括我们前面讲到的AlphaGo,它也是在这个时期里面很大程度的让大家的眼前一亮,其实人工智能的发展来说,我们把它分成几个时期,一共是有三个,从1956年大家熟知的达腾莫斯的会议,当时有十来位科学家可能都不是非常正式的方式(有点像马后炮的方式)来开展我们在人工智能方面的研究。那在这个会议上面,在后来基本上是在人工智能领域认为它是标志着近代人工智能的产生。
而在1957年像罗森布拉特发明了第一款神经网络,使得人工智能推向了一个高峰。但是到后面它又降了下来,然后在1982年霍普菲尔德神经网络的提出,又将我们的人工智能推向另外一个高峰。其实从这几个时代来看,包括从2006年金盾博士提出的深入学习的理论之后,到现在实际上已经使得我们的人工智能有了一个非常高速的发展,而且深度学习的算法上面,特别是说在我们刚才看到的语音识别上面,准确率已经得到了非常高的提升。
那我们纵观整个的发展,我本人把这个人工智能可能会理解为应用市场和技术的结合,也就是在最早的时候,可能技术发展到了一定的时期,但是应用没有跟上,所以发展没有那么快,但是到现在我们看到,从算法、从计算机硬件的处理性能上,都使得我们人工智能到达了一个高速发展的时期,并且有非常多的应用,可以知行结合。
我们所说的人工智能现在来看一共把它分成几个方面,其实它主要就是让机器去取代一些以前只能用人去完成的一些事情。比如说让机器像人一样的去思考、像人一样去看懂、像人一样去听懂、理解,像人一样去运动,而我们所做的事情是聚焦在让机器像人类一样听懂其中的语言处理。刚才前面讲到了很多的都是语音识别方面,这个就是把它分在这样的领域里了。
而人工智能更多的是让我们和机器之间的交互变得更加简单,比如说你说一句话之后机器就知道要怎么样给你回复,而像以前我们肯定要把这个输入到机器语言里面去,也使得服务由以前的执行层面的服务变成有更多互动的服务,因为以前我们可能让机器去做一个事情的时候,给它发出一个指令它就去做什么样的事情,而在现在它可以更多的甚至像人一样去跟大家进行这种互动式的服务,比如说多人的语音的回答等等。
而我们今天所在的这个领域里,智齿客服,也就是我所在的公司,重点就是将自然语音处理的机器人和在线客服这个场景去结合。那在线客服在我们这个产品出来的时候,它有哪些问题,我们重点解决什么问题,这个实际上是从产品的诞生和产品解决的用户痛点来说明的。在线客服大家经常会用到,你上到一个网站的时候,在那个网站会有一个窗口,你会去问一些问题,有人会给你做相应的答复,这个是一个很基础的用法。但是我们发现其实在这个回答里面,有80%甚至更高的都是一些重复的问题,会耗费大量的人力去处理。而人力又很难提供24小时不断的在线服务,如果要提供24小时服务需要耗费大量的费用,并且由人去接待,每一个人在回复的时候时间会很长,耗费的时间长导致了接入的速率低下,使得经常会有排队的现象出现。
而且人在回答的时候经常会遇到问题不会回答,那我得把这个问题输到知识库里面去搜索,这个知识库对企业来说是很重要的,但是对于这个知识库的检索和知识库的创立是需要耗费很多的时间的,所以我们看到这样的问题,我们认为通过一个将自然语言处理的人工智能的机器人和在线客服进行结合是能很好地解决刚才所说的那些痛点,并且能使得我们人工客服的场景能够得到更好的效率的提升,并且能降低费用。
在这个上面又引出了一个概念,就是自然语言处理,包括我们刚才看到那个题目,其实也是要说到这个自然语言处理里面的一些计算方面的问题。自然语言处理其实从发展到现在也有很长的时间了,它一共经历了两个流派的变化,一个是我们把它叫做统计语言,一个叫做规则语法。
这两个流派可以给大家解释得再简单一点,就是说规则语法最早可以把它看成是有很多的语言学家,想让机器人像人一样的去理解人的说法,然后去回答问题。现在的也把这种叫做鸟飞派,也就是说看见鸟是怎么样飞的,然后去学它怎么样飞,而去制造飞机。但是在这个发展之上其实遇到了很多问题,从20世纪的60年代到70年代到80年代的时候,有很多的科学家不断地投入到这个领域里头去,但是最后的收效甚微。
我引用了一本很有名的书上对于规则语法模型的一个举例,这句话大家可以看到叫“徐志摩喜欢林徽因”,它是一句很浪漫的话,但这句话非常短,而且只有几个短语,但是如果是要将它划分为真正的语法结构来讲就比较复杂了,比如说会把它分成主语、动词、动词短语、句号,并且对每一个部分进行分析,得到下面的这样一个分析树,这个分析树大家可以看看,简单的非常短的一句话,就需要写八条语法来完成它。即便去掉了词性的标准的还有四条,但是如果是说要让机器人像人一样去理解所有的语法,有很多稍微长一些的句子、复杂一些的句子就比较难理解,比如说这句话“美联储主席…等等”,这样长的一句话如果说我们要把这个分析树在这个上面写出来的话,可能需要好几页的PPT才能把它写出来。
实际上想要通过文法的规则来覆盖,哪怕是20%的句子,这样也有超过几万条,在自然语言处理学界,在人工智能学界有一位很牛的科学家高德纳克,他是专门提出了一个理论,就是机器计算的复杂度,如果说一句话比如说有十个词,如果要把它的文法规则全都写出来的话,它的机器计算的复杂度是这一句话长度的6次方,所以如果是想把所有的文法写完,是需要非常大的处理的。并且到后面来讲,各种文法之间还会有关联、冲突等等,而且不同的文法在不同的地方还会表达不同的意思,所以规则语法的模式到后来就越来越难走得通了。到上世纪的90年代,基本上这种做法就已经非常少了。
而统计语言的模型是什么呢?就是刚才我前面跟大家说了一句话,其实机器在回答人的问题的时候,现在它并不是理解了人问的是什么,不是理解了人整个的意图,而是通过数学的方法来决定收到什么样的问题的时候给出什么样的答复。所以更多的解决这个问题,其实是数学家、是计算机科学家,用的更多的是统计的语言模型。
在统计语言模型里面,当一句话进来的时候我们会做一些处理,首先会有一个句停词的处理,就是里面有很多的比如说语气助词(但是会经常出现的一些词语),我们会把它标成句停词,把它去掉避免它后面影响整个语法统计的计算。同时会做词性的标注,也就是说对每一个词语我们会标出它的词性。那词性最终排在中文里面还有一个比较复杂的是分词技术,也就是说中文跟英文还是有区别的。
举个例子,我们在一句话里面有“北京大学”,那可能会有两种模板的分词,分成“北京”和“大学”,还可以把它分成“北京大学”。那“北京大学”代表的意思和“北京、大学”又会是完全不同的。所以不同的分词的模板又会决定它最后回答的准确性。
最终才对提出的这个文本去进行相似度的计算,像相似度计算里面,现在有一些比较有名的比如说大规模的文本,像TS-IDF统计算法的模型。下面再跟大家说一下TS-IDF,它是用于评估一个字词对于一个文件集或者语料库里面的其中一份文件的重要程度,可以把它理解为当这个词出现的时候,我们把它计算出来有多少的分值,最后由这个分值去匹配最后的答案,这个就是一种算法,这种算法也经常应用在我们现在的搜索引擎上面。
举一些例子,比如说当一篇文章总的词量是100个词,而这个智齿这个词出现了三次,智齿这个词在这个文件里面的词频就是0.03。而另外一个,就是IDF计算文件频率,是测定多少份文件里面出现过这个词,然后再除以文件集里面的文件总数,也就是说如果智齿这个词在1000份文件里面出现,而文件总数是1000万份的话,那逆向文件频率,就是IDF计算出来是等于4,最后TS-IDF的分值就是0.12,这个计算出来代表了它对于整个短句或者整个这个文法里面的一个贡献度。
第二个例子,这一行我们看到,比如说有一句话里面出现的是“原子能的应用”,那其中这个“的”字会在很多的文件里面就出现了,但是我们前面讲了这种词语实际上是要去掉的,要不然它会很大限度的影响我们最后的判断。而“原子能”这个词是一个专有词,在计算的时候我们也会给它加上一个权重,赋之一个更高的权重,最后得出这个文法的相关性。
那讲了这个相关性的学习之后,还有一些处理需要更复杂的一些计算方法,比如说有两句话“怎么从互联网上下载音乐”,和“如何将MP3从Internet上传输到电脑上”,这两句话里面基本上是没有一个词是重复的,所以按照那种简单的统计算法来讲,它就会认为这两个文法是没有关系的,所以如果当你的知识里面有一条的答案是“如何将MP3 从Internet传输到电脑上”这个答案的时候,它问了前面那句话可能是匹配不到的。所以这个里面又要加入语意辞典,也就是有一些词中间的关联度我们要把它关联上,比如像mp3和音乐的关联度是比较高的。
比如说右图,我就给出了一个比较早的关联的层级结构的模型,在这个里面又有一个计算方式,就是如果说两个词之间的关联路径最短的话,它的关联程度就越高,比如说我们在语法里面问到东京和问到北京的时候,这两个词虽然是完全不一样的,但是它们又都是国际大都市,所以它们中间是会确定一定的关联,所以你在问问题的时候是很有可能在大都市的类似问题中,问北京的时候会把东京问出来,所以这就是一些更高级的计算方法。
另外还有相似问法的匹配,相似问法也是在我们的产品里面会经常用到的一个说法,就是当你有一个答案的时候会问很多的问题,那这些问题有的是跟答案的匹配度是比较高的,有的并没有那么高,那我们就会把这些并没有那么高的答案作为它的相似问法存储起来,当后面有人再问到这个问题的时候,我们就可以更快速的把这个答案回复给他,因为实际上此前已经有人问过类似的问题了。这个其实是在交互里面做的一个优化的过程。这个就是在我们产品里面的一个做法,当客户问到问题的时候,我们的机器人看到这个问题跟我们已有的答案接近度是比较高的,但是又不完全接近,我就把它作为这个问题的相似问法放在后台,当另外的人再问到这个问题的时候,如果是比较接近这样的问法,我就认为是另一个答案的产生。
还有一些问答的推荐,问答的推荐是当你问到一个问题的时候,我怎么样把这个问题相关的其他问题或者答案推荐给你,这里面有一些聚类计算的一些概念,比如说我会把这个问题相关的整个库里面的文件计算出来,然后把其中被问得最多的或者跟这个相似程度最高的,把它推算出来,这是另外的一个算法。
那自然语音处理的统计语言模型会使得整个的配置会更加简单,左边是产品里面的统计语言模型的配置,在这个配置里面,客服只需要尝试着像正常人说话一样去配置就可以了,这里面的配置是“iphone是什么”,这个问题它直接这样问,写到问题里面,把答案写出来就OK了。但是如果是用规则语法的模型,它得把这一句话拆开,把每一个词的词性标出来,然后每一个词是什么样的词汇,它是名词、动词标注出来,并且用模板的方式这样去填充。
在这个领域里面,其实需要相关的专业的人员才可以去完成这个配置,所以我们现在这种方法包括采用的这种自然语言处理的方法,可以使得在处理知识库的填加上面变得更加简单。
另外在我们产品里面,还涉及到像一些权重赋值、多人问答、语境关联。语境关联就是你所问的上下文,它是可以有相关度的。比如说多人问答解决这种复杂的问题,当用户问到使用订单系统报错的时候,我们会回复给它几个选项,由他选择之后对应的选项再有相关的问法去问他,然后再选择,最后通过多轮的问答确定最终的一个答案。因为很多问题无法通过一次简单的问询就得到最后的答案,这也是使得这个产品的回答准确度得到很高的提升的一个方面。
另外经过长期的积累,在我们的产品里面现在有超过了2千万的寒喧词条知识库,也就是说你可以问各种各样的问题,哪怕是说不是业务问题,比如说吃饭类的、情感类的等等这些,它都会去进行回答来提升客户进到我们的页面上,或者进到产品咨询这个页面上的一些客户黏度。
刚才我们说到了寒喧,其实在寒喧上面有做得更好的一类,我们把它叫做个人助理类机器人,或者叫做个人情感类机器人,它在后面所用的这种算法,其实也是我刚才讲到的统计语言模型。但是它跟我们现在所做的这种客服机器人也是有区别的,我们认为企业的客服机器人更多的专注于一个特定的应用场景,比如说像刚才在金融领域里面的机器人,那它肯定是解决金融的问题,要专注于金融这个场景。那在车载类里面,它又必须要在车载的那个里面,在开车的时候会有哪些关联的问题,会在这些地方做相应的应用分类和识别。
但是个人情感类的更多专注于的是说解决人的交流,甚至说你问一个问题之后它可能答不出来,它会跟你卖一个萌,让你感觉非常好。当然在企业环境里面,用户上来咨询问题的时候,如果你回答不出来问题去跟他进行卖萌,那可能就会存在用户投诉等等这些问题。
对于客服这个应用场景来讲,机器人的问答仅仅是解决了第一环,其实还有很多其他的事情可以做,后面我就会讲到在我们的产品上面,怎么把机器人和整个产品的链条关联起来的一些做法。比如说当问到人工的时候,我们这个产品里面的机器人会先在第一轮去挡掉很多问题,但是你如果认为这个问题机器人回答不好,你还可以转到人工去进行回答,当人工回答的时候机器人会在后面辅佐他回答问题,这个问题出来之后你只需要点一个这个问题,机器人会从答案里面推选出一些它认为跟这个最匹配的去供人工来进行选择,这样就不需要人一个字一个字的去输入了,非常高地提升了人的使用效率。
第二个现在我们所做的就是基于用户数据的分析、操作行为的一些精准推荐,比如你到了我这个系统之上,你可能购买了某一个商品,可能咨询过某些类的问题,那当你问到其他问题的时候,我们会根据你此前的用户行为,推荐一些你可能认为感兴趣的东西,或者感兴趣的答案供你来进行选择。这也是现在来讲能够将客服这个产品更好地和交互式的产品结合,并且在客服场景里面去延伸销售的场景的一些应用。
另外我们现在还在在跟一些合作伙伴合作,就是专门做语音处理的,它将语音识别成文字,再由我们通过自然语言的分析,来将这个文字做质检,比如说这一通文字是这个客服回答的问题,那最后客服是否解决了这个问题,解决的程度是不是满意,这些都是可以在产品里面做的。
包括工单,工单又是另外一个概念,它会使得我们客服回答不了问题可以转到后台去进行答复,会由机器人来自动地进行分配和处理,那我们认为人工智能最终能够落地并且能够得到快速的发展,重点就是它能够跟这种应用场景去结合,发挥出它的根本价值,(甚至)也就是替代人类完成某些工作,并且更大限度地提升效率和降低成本。
这是我们的一些客户对于产品的一些评价,这里就不再一一说了。我们现在还在设计其他的一些场景,跟更多的合作伙伴在多场景融合的人工智能应用里面去发展,将我们的自然语言分析处理的技术用到更多的使用场景里面去。
最后我想说一下未来(切一下前面主办方所说的那个题目),我认为未来所有的应用都会出现人工智能的身影,所谓的人机交互的入口将会变得非常简单,并且人工智能就像我们当时看现在的手机一样,它会跟我们的生活息息相关,甚至说成为我们生活的一部分。
最后引用这样一句话来描述人工智能,这句话已经被引用了很多次了,“人工智能就像一列火车,它临近的时候你听到了轰隆隆的声音,你在不断地期待它的到来,待它终于来到了却一闪而过,随后远远地把你抛在身后”,所以我是认为在人工智能即将兴起的这个大的时代潮流下面,我们不要去看到它的负面,不要过多的去抛弃它、诋毁它,而是更多的融入到这个潮流里面去,为发展它、推进它贡献自己的力量。
好,谢谢大家。
主持人:晓隆请留步,来看一下我们朋友的提问。因为我们前面花了很多篇幅去介绍关于你们的数据和模型,其实我们现在更想了解一下关于使用场景的话题。大家也提了不少问题,其中有一个关于场景的问题,我稍微把他的问题修饰一下,他说对于客服方面,哪些客服更适合交给机器人完成会极大的提高效率。那我反过来问一下,现在有什么是你们觉得不能做的?
余晓隆:其实有很多东西都不能做,但是归结到客服这个场景来说,我认为现在更多的做的还是对方来询问,然后我们来解答这样的一种场景。那对于主动式交互的场景,比如说有一些销售的场景,比如说需要销售出来根据这个客户问的一些问题去推荐他买什么样的东西,然后去跟他建立更好的人和人之间的互动,机器人在这些方面我现在认为还是比较冰冷的,所以有很多销售场景下面我们看到的是,更多的人还是愿意进来之后可能跟机器人聊了几句之后,涉及到买东西的时候会转到人工服务,所以我们也是希望后面在这个场景下面能够更多的去发展。
归结起来,其实我个人认为还是说我们现在所做的机器人,更多的是说去理解和回答,那在未来更多的机器人应该所做的是主动地去理解人的意图,并且去挖掘生意机会,去探索人在想的另外一些问题。这个是我们现在还没做出来的,需要发展和变化的。
主持人:OK,我追问一个问题,因为其实在之前的时候,国内也兴起了一波×××的产品,也有很多这样的产品,然后我都大概用了一遍,我发现一些非常实际的问题:
第一个实际的问题是最终下订单的时候都还是要人来确认的。所以我想知道对你们来说,订单确认这件事情真的是对机器人来说有很大的不确定性,一定需要人工来确定吗?
余晓隆:没有,订单确认其实来讲的话,通过机器人来完成是可以的,但是我认为可能最关键的问题是在于说人在确认最终订单的时候,他可能交给机器去完成,最终的那些客户他会认为有一些不确定的因素,比如说你可能需要在里面输入你相应的信息,要去跟机器人交互,那这个时候他更愿意交给人,或者是说交给网站上面的提交,但实际上现在的机器人也可以做到,比如说我推送一个表单,这个表单里面有商业的订单信息让你最后确认一下,这个也是可以做到的。
主持人:那就涉及到我第二个问题,比如说我相信未来机器人肯定也会介入到一些类似于商品买卖的交易过程中,比如说淘宝卖家,然后订单下了之后,你推送给我的表单挺好之后然后反悔了来说能不能再便宜一点,那这个时候怎么办?这个时候有可能机器人再跟他讨价还价还是这件事情是短期内无法实现的?
余晓隆:可能现在还比较难实现,是说在讨价还价这个程度上面的话,应该说机器对于人的意图的一些理解现在是做不了的,更多的还是基于说一些数据的分析。比如说我们可以做到(当然我们现在没这么做)基于这个用户以前的一些交易行为,就是他每一次都喜欢减一些价格,那这个时候机器人甚至可以知道他大概是在什么样的一个心理承受的范围之内,然后给他做一个什么样的优惠。
其实现在来讲人工智能有很多还没有到达我们所想象的,像我们所说的类脑那样的去处理,就是像人的大脑一样去思考,它还是基于数据,基于它以前所做的一些行为,最终去进行分析组合来达到这种程度,所以我觉得在未来它会做得更好