连载 | 2.6 unit专业术语科普

欢迎大家跟我学习第二章的第六节，UNIT的专业术语科普。

这一节我会介绍所有和UNIT相关的专业术语，方便接下的UNIT实操课程。

第一个：BOT和技能。

BOT & 技能

一个Bot对应的是在一个特定的场景下独立完成的对话系统。用来满足特定场景下的对话理解与交互需求，通常按行业垂直划分。

例如：银行信用卡办理的Bot，电视遥控的Bot。

Bot在这里和我们手机里App是类似的。

例如：一个银行卡办理的Bot，一个电视遥控的Bot，甚至说一个差旅的Bot。它就是在一个特定场景下独立完成的对话系统。

技能是某一个方向的对话能力，分为两个：一个是自定义技能；一个是系统的技能。自定义的技能完全由用户配置，系统技能由UNIT平台预置。但是开发者可以在后期进行干预，技能同时包含了对话意图和问答意图.Bot拥有的技能，既可以用于用户对话的对话意图，也可以实现简单的FAQ问答。

意图 & 词槽

意图的意思是在一个对话任务中，Bot要理解用户的目的。

例如：用户说帮我换到中央台，对应的就是电视控制Bot技能下的对话的意图就是换台；

例如：我说北京天气，这个对应的意图就是查天气，它是代表着一种下一步其实要做的一种操作的方向；

定义Bot技能下的对话意图时，需要设置对话意图关联的词槽。关联的词槽是实现对话意图的必须条件，以及Bot理解对话意图后给Bot用户的一个回应。

用户意图分为对话意图和问答意图，问答意图主要用来圈定某一个范围内的主题问答对，这就是意图。意图很多时候可以理解成一个方法，是一个开始，然后把它做成一个分类，通过知道了他的意图是什么，然后下一步，我们就知道你这句话的意思。

简单的说意思是什么，然后接着去引导用户给出更多的信息。

词槽是满足用户对话意图时的关键信息或限定条件。可以理解为，用户需要提供的筛选条件。简单的来说，就是为了完成这件事所需要的关键信息。

例如：在查询天气的时候，词槽就是地点和时间；

例如：说换到中央台的时候，中央台就是一个电视台的词槽；

词槽会一定程度上影响系统对换台这个对话意图的执行，这个是意图和词槽的定义，这两块非常关键。

在整个UNIT系统中，我们进一步的来把它理解下。

将一句话理解为意图和词槽

比如：用户说今晚6点帮我在全聚德预定一个房间。意图是预订餐厅，词槽就是关键的信息，餐厅名是全聚德，时间是2017年7月5日18点。

进一步我们会发现，我们需要知道有多少人，才能决定订多少人的包厢。

所以机器人会说：“好的，多少人？”。那么用户进一步回答：“10个人”。这个意图是澄清人数词槽，那这个词槽是人数，是10。

进一步的用户说：“多谢”。这个意图是表达感谢，词槽是空。

我们要注意一下，词槽为空是一个比较正常的现象，不要说发现词槽为空硬要往里面去填，这个是没有意义的行为。

词典

下一个比较关键的定义叫词典。词典是属于词槽的所有词汇的集合，这个读起来比较拗口。我们拿两个例子做个解释。

比如餐厅的词槽，刚才我们看到了是全聚德，那词典就是所有的餐厅名，全聚德、海底捞、便宜坊、肯德基等等。这样大家就能理解了，词槽是：全聚德，它是一个餐厅名。词典则是所有的餐厅名。

再比如说晴天，词槽是晴天，词典是所有天气的词槽，晴天、阴天、下雨、大雨等。我们看到图片上有一个“#”，这代表的是它的同义词，肯德基和KFC是同义词，晴朗、晴和晴天是同义词，有雨、下雨是同义词，阴和阴天是同义词。

我们在这些同义词上也要尽可能多的标注出来，才能让机器人更加聪明，才能够识别不同的词语。

下面这对比较重要的概念是对话样本和对话模版。

对话样本 & 对话模版

对话样本：是用来给对话系统做示范，教它在用户说的具体句子里面如何理解对话意图，哪个词是重要信息，对应的词槽是什么。

比如通过对话样本标注告诉机器人，三亚明天会不会下雨和三亚明天会下雨吗，都是告诉它这是询问天气的语句。其中三亚是对应城市city这个词槽，明日和明天都是time这个词槽。

我们训练的越多，机器人的理解能力就越强。这个和我们在现实生活中小孩子的学习是非常相似的。听的越多、读的越多，他就越聪明，这就是对话样本。

对话模版是用来给对话系统按照具体的语法句式做出的示范，教它在某一个特定的语法句式中如何理解对话意图。哪个词是重要的信息，对应的词槽和特征值是什么。

我们从话术里面就可以感觉到，对话模版它是一个模版，换句话说我们要给它定义好的一个模版，然后告诉它这句话里边哪一部分代表着什么。

我们看一下对话样本 & 对话模版中对话模版的例子，前面这一块的例子看起来很生涩，有一个“system location，system time天气如何”，这个其实可以把它做成一个“城市+时间+天气如何”这样一个询问天气的对话意图。

比如北京的天气如何？北京今天的天气如何？

这里边我们就会发现，北京或者天津就是这个“system location”，它代表的是所有城市词的组合，“system time”代表的今天&明天，是所有时间描述组成的组合。

对话模版也可以使用读条对话模版组成一个对话模版组，实现按片段去匹配用户的query，实现更强的对话意图，泛化匹配的能力，提高模版对用户的query的召回率。

通常情况下，当我们的对话样本比较少的时候，我们会先用一些对话模版上线。这时候，先让机器人通过对话模版去回答用户的问题，进而再大量的收集用户的信息，收集更多的对话样本，再反过头来让机器变得更加聪明。

下一个比较重要的概念叫特征词。

特征词

通常情况下特征词代表了一种约束某条对话模版匹配的范围。比如天气、下雨、热等类别的关键词，它是一种特征词或者提供一定限度的泛化能力。

在订机票的对话中，从北京到上海的“到”就可以和“去、飞”等助词，一起作为特征词。我们如果活用特征词，就可以事半功倍并提高对话模版的精度和覆盖度，最终得到一个很好的效果。

再进一步给大家解释一下，什么叫做特征词词典。它和词槽词典感觉上很类似，开发者自行导入词典，用于系统识别特征词。所有相关的特征词的组合，我们叫它特征词词典。

问答对 & 问答集

问答对是什么？

问题和答案的组合称之为问答对，这个听起来比较好理解。它支持一对一、一对多、多对一和多对多。

当某一个问题的问题对中包含多个答案的时候，答案随机呈现，这就是一个问答对，问题与答案的组合。

问答集是什么？

问答集是承载着问答对的容器，与技能中问答意图的定义一一对应，它是一个集合所以叫它问答集。

支持批量将问答内容导入问答集，也支持在线编辑。

训练模型

把Bot下所有的配置标注的对话样本、对话模版，打包提交给UNIT平台，来训练对话理解模型，这就叫训练模型。

训练的时长跟训练的对话样本量，对话模版量是有很大关系的。训练量越多，训练的时间越长。训练完成后沙盒中的Bot就会自动加载并生效模型，通常操作会花费几分钟的时间。

沙盒环境 & 生产环境

沙盒环境的定义：沙盒环境是UNIT平台提供给开发者创建Bot，训练优化Bot模型的一个环境。每个Bot都配有一个沙盒环境，将训练好的Bot模型生效到沙盒环境后，就可以进行效果验证了，同时可以接入到自己的业务系统中进行使用。沙盒环境可以生成多个模型模版，但只能选择一个放在沙盒环境中。

我们用的多个模型模版，只能放到一个沙盒环境中。

生产环境的定义：生产环境是UNIT平台在百度云上为开发者提供的可定制的稳定的对话服务环境。

它和我们的开发者开发的术语中的生产环境是一样的，就是线上的一个稳定为用户提供服务的环境，就叫生产环境。

说了这么多的概念，我们来看一下是怎么用的。

UNIT：多轮交互中的回应方式

刚刚我们举的这个例子：

帮我订一个全聚德的十人包间；
好的，您想订什么时间的；

上面就是一个词槽澄清的询问。

今晚6点吧；
好的，帮您订好了；

接下来，还有一种叫引导。

需要帮您叫车吗？这是一个引导；

UNIT：将用户提问进行问答匹配

第二个例子：怎么借现金？，这是一个问题。

我就会在我的库里边去发现，怎么借现金是和【现金贷】借现金的申请流程是什么？这两个是一个意思，我就会把答案推出来，然后告诉你怎么去借现金。这是另外一个问答匹配的例子。

再给大家展示一个精确询问和多轮引导的例子。

精确询问 & 多轮引导

刚才我们看到怎么借现金？它是一个问答单元，然后回答。

那问答单元加对话单元是什么样的？

我想了解现金贷怎么申请？
我这有三种，您选择哪一个？

这是一种对话。

我借现金吧；
帮您找到三个相似问题；
那第一个吧；
然后机器人再去说；

这是一个对话单元加问答单元，这两个是有一定区别的。

接下来再给大家介绍两个在智能对话领域经常会说到的概念——知识图谱。

知识图谱

知识图谱本质上是语义网，描述真实世界中存在的各种实体或者概念。通俗的将，它可以理解成一个数据库。当然，它不是数据库，不过我们可以用这样的方式去辅助理解。知识图谱是知识的结构化表示。

通常我们用一张巨大的，有点和边组成的图来可视化表现知识图谱。

点，代表实体或概念。用全局唯一确定的ID来表示，称为标识符。点包含属性，称为值对，用来刻画实体的内在特性。

边代表实体之间的关系，用来联系两个实体。说起来非常拗口，我们来举一个例子：

比如：知识库中有一个iPhone7的屏幕尺寸的答案，还有一个是iPhone7plus的屏幕尺寸答案。当用户问到iPhone7屏幕比iPhone7plus屏幕大多少时，知识图谱可以支持机器人进行加减乘除的运算，得出大小，比较答案，就不需要在知识库中具备对应的知识规则。

它可以跳出一些知识规则，自动的去做一些匹配。

情感分析

情感分析是为对话赋予情感值，根据情感值的正负将情感倾向分为：正面情感、中立情感以及负面情感。

通常情况下，企业更关心客户在对话中产生的负面情绪。因为这明确代表了企业客服工作和改进的方向，以及降低客户的投诉。提升客户体验和工作考核KPI直接相关。

情感分析主要应用于机器人的智能质检中，可以作为一个指标判断对话质量。

评测情感分析的指标主要分为：情感分类的准确和负面情感的召回率。这个之前我们也简单的在前面的对话系统中，大概的介绍了一下。

当我们的一个机器人上线，发现全都是负面情感的时候，我们就知道如何去优化了。什么样的话术引发了后面的负面情感，我们也知道这样的话术尽量少用，或者通过上下文的关联，知道如何优化我们的故事线、优化我们的对话逻辑。

最后我们做一个UNIT所有概念的总结。

总结

首先ChatBot分为两块，一个是如何理解用户，一个是如何回应用户。我要先听懂你说的话，之后还要怎么去回复你说的话。这和我们在现实生活中，人和人的交往、沟通是非常相似的。

如何理解又分为意图和词槽，例如：订电影票是一个意图，电影名称、电影院和日期就是词槽。属于如何理解这块。

词槽中有个很重要的词叫词典，词典就是我们所有这些词槽的集合。例如：电影院的影城，所有电影院的名称（天幕新彩云影城、天幕新彩云、天幕），都是天幕新彩云的别称。又或者是：新华国际影城大钟寺店和新华大钟寺店，大钟寺的新华，它们都是一个意思。我们要尽可能多的收集这些词典。

第二步第二块是如何回应，它又分为词槽澄清、回复和引导，刚刚也在例子里给大家做了一个介绍，例如：到哪个电影院看。就是一个词槽澄清，需要确定用户的词槽是什么。

回复又分为两块，一个叫回复话术，一个叫触发条件。

回复话术：用户说好了所有订票的内容，机器人说：“好的，这就为您订票”。这就是一个回复话术。
触发条件：同时它何时回复，是通过之前收集到的信息，还要做一个词槽填满，当我把这个词槽都填满了之后，我才会去说：“好的，这就问您订票”。如果词槽没有填满，可能会去引导说：“您要去哪个电影院呀，要看哪个电影呀”。

第三块是引导，引导分为引导话术、引导目标和出发条件。

引导话术例如：我已经订好了电影票，我可以继续问：“您是不是要买小吃呀？是不是要选个座位？我还可以帮您干什么？”。

引导目标例如：引导买一些饮料，小吃。

触发条件也就是何时去引导，当我已经把这个任务完成了，词槽都填满的时候，我再去进行下一个任务。引导买小吃或是饮料。

好的，这一课主要是给大家科普一下UNIT所有的相关概念，希望大家能有一个全面的理解，之后在UNIT的实操中可以更加得心应手，谢谢大家！

李佳芮の博客

时间看得见

连载 | 2.6 UNIT专业术语科普