基于多特征融合的意图识别算法研究

2020-08-21 17:21:37 电脑知识与技术 2020年21期

周权 陈永生 郭玉臣

摘要:针对中文口语短文本缺少上下文信息、语法不规范和噪声较大等特征造成语义模糊,进而导致用户意图识别准确率不高的问题,提出了一种基于多特征融合的意图识别算法。算法对传统Bi-LSTM(Bi-directional Long Shot-Term Memory)文本分类算法进行改进,将原始文本的字向量、词向量、词性向量和实体知识库向量进行融合,结合字级别的意图识别模型,在人工标注的实际场景下的用户意图数据集上进行训练和测试。实验结果表明,改进后的用户意图识别算法在实际场景中准确率等评价指标有明显提高。

关键词:意图识别;短文本分类;多特征融合;词嵌入;深度学习;Bi-LSTM

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2020)21-0028-04

开放科学(资源服务)标识码(OSID):

1 引言

近年来,随着“AI赋能”“智能+”等概念的不断提出,人工智能技术推动传统产业向数字化、智能化方向升级,使人们的生活方式发生了翻天覆地的变化。即时通讯、智能客服、语音助理等应用应运而生,极大地方便了人们的生活,在这些人机交互系统中,能够正确识别用户意图是做出合理回应的基础,一旦用户意图判断错误,那么机器回应就会出现答非所问的情况,十分影响用户体验。针对中文字符缺少空格来分割语义,口语语法灵活多变等特点,本文提出了一种基于多特征融合的意图识别算法。该算法主要针对文本向量化表示和意图分类模型两方面进行改进,实现更高精度的短文本分类算法,从而准确识别用户意图。

2 相关工作

意图识别的一般流程是将输入的文本转换成结构化的向量表示,再通过机器学习或深度学习等算法给出句子X对应的最佳意图Z,通常作为标准的多分类问题进行处理。如对问句“东方卫视这周天有什么节目”进行分类,得到意图识别结果“影视领域一节目单意图”。

2.1 文本表示

文本表示是自然语言处理领域中一个很基础的研究工作。只有先将文本表示成计算机可以理解的形式,才能使用机器学习等方法进行后续的处理。常见的文本表示方法分为离散表示和分布式表示两种。从分词粒度角度来看,又可以分为词向量和字向量两种类型。

NLP中最常用、最傳统的此特征表示方式是采用One-Hot编码[1],即每一个特征词都被表示成一个很长的向量,其长度等于词表大小,当前词对应位置为1,其他位置为0。当时One-Hot编码这种表示方式会导致不同次之间总是正交的,无法衡量不同词之间的相似关系,而且只能反映每个词是否出现,无法突出词之间重要性的区别,丢失了很多语义上的信息。

分布式表示也被称为词嵌入(Word Embedding),1986年由Hinton提出[2]。分布式表示把信息分布式的存储在指定维度的向量的各个维度中,区别于传统的离散表示方法,由于在模型训练过程中考虑了单词的上下文语义信息和语义环境等,因此生成的词向量包含丰富的潜在语义信息。常用的模型有2013年Google开源的Word2Vec[3]、2014年Jeffrey Pennington等人提的GIoVe[4]和2016年Facebook开源的FastText[5]等。

2.2 意图识别

用户意图识别是人机交互系统中关键性技术之一[6],意图识别的结果直接影响到交互系统做出回复的合理性[7]。意图识别本身也是一个文本分类问题,其方法和模型与文本分类大同小异,常用的有基于词典模板的规则分类、基于机器学习和基于深度学习的文本分类。

传统的意图识别方法,一般通过朴素贝叶斯、支持向量机(SVM)、隐马尔科夫(HMM)和决策树(DT)等机器学习方法,在有标签的意图文本上训练分类模型,进行意图识别。在简单的意图识别任务中取得了一定的效果,但随着意图类别的增加,这类基于人工特征的分类模型并不能有效提取文本的深层语义信息,尤其是在口语短文本这类意图识别问题上,数据表示更为稀疏,使得算法准确率难以提高。

近年来,深度学习模型在计算机视觉和语音识别中取得了显著的成果。在自然语言处理中,使用CNN、LSTM、RCNN等深度学习算法来学习单词向量表示,进行文本特征提取,在意图识别任务中取得了不错的效果。2014年Yoom Kim提出TextCNN[8],使用预先训练好的词向量作为Embedding Layer,通过不同尺寸的卷积核提取文本的局部相关性信息,在进行分类。TextCNN对文本的浅层特征抽取能力强,且速度很快,但由于主要依靠Filter窗口来抽取特征,在长距离建模方面能力受限,且对语序不敏感。同年,Chung J等人提出TextRNN[9],RNN模型由于具有短期记忆功能,因此天然就比较适合处理自然语言的序列问题,尤其是引入门控制机制后的LSTM,能够解决长期依赖问题,捕获输入样本之间的长距离联系,但在状态转移过程中,容易遗忘位置相对靠前的词。2015年Tex-tRCNN[10],将CNN的卷积层替换为双向RNN,结合了CNN对重要特征的提取能力和RNN对句子上下文信息的捕获能力,在文本分类任务上取得了不错的效果。

近两年Attention Model在自然语言处理领域大放异彩,Peng Zhou等人在Bi-LSTM的模型上加入Attention层[11],先计算每个时序的权重,然后将所有时序的向量的加权和作为特征向量,再进行softmax分类,实验的评测结果表明,Attention能够提高模型的性能表现。

综上所述,国内外学者在文本表示与意图识别方面已经做了大量的研究工作,并取得了一些进展。但是对于用户意图识别这类中文短文本分类任务,由于中文不同于英文,缺少显式的单词分割和专有名词标识;而且口语化的文本一般长度较短,噪声较大,不完全符合语法规范等,这些特点导致在某些领域上使用传统短文本分类算法的用户意图识别效果较差。因此,本文在传统Bi-LSTM短文本分类算法的基础上,从丰富文本特征信息和增强分类模型鲁棒性两个角度,提出了一种基于多特征融合的意图识别算法,使用户意图分类算法更具有判别性。

3 基于多特征融合的意图识别模型

在本部分中,我们将介绍本文提出的针对中文短文本意图分类问题的深度学习模型,以及多特征融合的具体方式。整个模型由Input Layer、Embedding Layer、Bi-LSTM Layer、Token-level Intent Detection Layer和Intent Detection Layer五部分组成,下图1展示了模型的整体结构。

3.1 Word Embedding多特征融合

对于基于深度学习的自然语言处理任务,Word Embedding是最基本的输入组成之一。针对字向量和词向量的局限性,将字向量、词向量和词性向量进行拼接,组成字一词向量,在不丢失词特征的同时,降低由分词错误对意图识别带来的严重影响。在字一词向量的基础上,再拼接实体知识库向量,组成多特征融合向量,作为Word Embedding输入模型,为模型提供了一定的先验知识。各向量的拼接方式如下图2所示:

其中实体知识库部分,我们维护了一个包括影视剧名、地名和人名等信息的实体字典,采用5 -gram的方式构造实体知识库向量。以“播放澳门风云”这个句子为例,分别判断每一个字符、字符所在词及左右5-Gram的字符串是否在实体知识库中,若存在,则在向量对应位置上给予标记,最终生成一个长度为10的实体知识库向量,下图3具体展示了“澳”字的实体知识库向量构成。

3.2 意图识别

在Bi-LSTM模型的每一个隐层状态中都融合了整个句子的信息,我们不仅将最后一个隐层状态作为模型输出向量进行分类,而是综合利用每一个隐层状态的輸出,对每个单词分类,得到每个单词的意图分类结果。

对一个含有m个字符的句子,给定其编码表示E,经过双向LSTM进行编码,得到隐层状态:

4 实验及结果分析

4.1实验环境

硬件环境,如下表1所示:主要软件环境,如下表2所示:

4.2 实验数据

本实验数据来源于某影视公司语音助手业务非公开数据,共计62438条记录,包括影视搜索、节目单查询、控制指令、影视信息查询、明星关系查询、生活技能等20个意图。

4.3 实验过程与结果分析

本项目训练集、验证集和测试集按照7:2:1比例进行划分,采用十折交叉验证的方式选择合适的超参数。本实验测试结果如下表4所示:

最终结果表明,我们提出的模型在宏平均准确率,宏平均召回率和准确率上相比Bi-LSTM和Char-CNN等基准模型有明显的提高,充分证明了模型的有效性。

5 总结

针对用户意图识别任务,本文提出了一种基于多特征融合的意图分类模型。该模型通过融合字向量、词向量、词性向量和实体知识库向量等丰富了Word Embedding的语义信息。同时对每一个字符均进行意图识别,最后使用投票机制确定整个句子的最终意图,增强了模型的泛化能力。但从算法的推理时间来看,还需进一步优化,以应用于实际业务场景。

参考文献:

[1] Turian J,Ratinov L,Bengio Y.Word representations:a simpleand general method for semi-supervised learning[C]. Proceed-ings of the 48th Annual Meeting of the Association for Compu-tational Linguistics, Uppsala, Sweden, Association for Compu-tational Linguistics: Uppsala, Sweden. 2010:384 394.

[2] Hinton G E.Learning distributed representations of concepts[C]. Proceedings of the eighth annual conference of the cogni-tive science society, Amherst, Mass: 1986:1-12.

[3] Mikolov T,Chen K,Corrado G,et aI.Efficient estimation of wordrepresentations in vector space[EB/OL].2013: arXiv:1301.3781[cs.CL].

https ://arxiv.org/abs/ 1301.3 7 81

[4] Pennington J,Socher R,Manning C D. Glove: Global vectors forword representation[C]. Proceedings of the 2014 conference onempirical methods in natural language processing (EMNLP),2014; pp 1532-1543.

[5] Joulin A,Grave E,Bojanowski P,et aI.Bag of tricks for efficienttext classification[EB/OL]. 2016: arXiv: 1607.01759[cs. CL].https://arxiv.org/ab s/ 1607.0175 9

[6] Liu, B.; Lane, l. Attention-based recurrent neural networkmodels for joint intent detection and slot filling[J]. arXiv pre-print arXiv:1609.01454 2016.

[7]靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29.

[8] Sarikaya R,Hinton G E.Ramabhadran B. Deep belief nets fornatural language call-routing[C]. 2011 IEEE International con-ference on acoustics, speech and signal processing (lCASSP),lEEE: 2011:5680-5683.

[9] Reinforcement Learning[C]. The Thirty-Second AAAI Confer-ence on Artificial Intelligence (AAAI-18), 2018:6053-6060.

[10] Lai S,Xu L,Liu K,et al. Recurrent Convolutional Neural Net-works for Text Classification[C]. the Twenty-Ninth AAAI Con-ference on Artificial Intelligence, 2015:2267-2273.

[11] Zhou P, Shi W, Tian J, et al. Attention-based bidirectionallong short-term memory networks for relation classification[C].Proceedings of the 54th annual meeting of the association forcomputational linguistics (volume 2: Short papers), 2016:207-212.

作者简介:周权(1995-),男,山东滨州人,学生,研究生,主要研究方向为自然语言处理。