基于深度学习智能问答技术的研究

2020-08-21 17:21:37 电脑知识与技术 2020年21期

华颖 余华云

摘要:随着互联网技术的飞速发展,智能问答也逐渐进入大众的视野,并且是当前深度学习自然语言处理领域的研究热点。智能问答技术能够允许用户以自然语言的方式提问,它能直接给用户返回一个答案,而不需要用户自己去搜索答案。随着近年来深度学习和机器学习等技术的飞速发展,这些技术应用到智能问答系统中也使智能问答技术变得越来越成熟。本文主要研究了基于深度学习智能问答的部分相关技术以及语句相似度和证据评分相关算法。

关键词:智能问答;深度学习;自然语言处理;证据评分算法

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2020)21-0175-03

开放科学(资源服务)标识码( OSID):

1 研究背景

随着人们生活水平的提高及科技的进步,需要接收到的信息量成爆炸式增长。通常,人们是通过搜索引擎所返回的网页中查找自己所需要的信息。虽然现有的搜索引擎技术已经非常成熟,但是这种方式依然存在很多的弊端,只能满足用户的一小部分需求。当用户通过搜索引擎进行检索时,它根据的是输入的相关关键字或一个問题进行检索,第一,会造成语义理解的偏差;第二,会出现大量的和关键字相关的信息使得无法直接返回用户所需要的答案;第三,现在存在一些商业搜索引擎的干扰,企业付费给搜索引擎公司后,无论检索后呈现的信息是否属实,只要有相关关键字,付费后的信息就能直接出现在最前面,这些信息往往不是用户所需要的。

为了克服传统搜索引擎的不足,智能问答技术也在快速发展,很多高校以及科研机构都投身于智能问答技术的研究中。智能问答技术相比于搜索引擎来说主要有两方面的进步,一方面使用智能问答技术,用户可以使用完整的自然语言提问,更准确地表达用户所需要查询的信息。另一方面运用智能问答技术得到的结果不再是一系列与查询相关的信息或网页,而是返回一个准确的答案。

智能问答技术是现代信息技术系统不可或缺的一个部分,也是目前自然语言处理领域中具有很强的应用性和良好发展前景的研究方向。但实际上在应用方面,目前深度学习算法和智能问答技术的结合并没有达到理想的效果,因此,研究基于深度学习智能问答技术意义深远。

2 知识库智能问答技术

智能问答技术主要分为检索式问答,社区问答和知识库问答。

检索式和社区问答虽然能在某些特定领域上应用,但是这两种技术的关键点还是关键词匹配和浅层语义分析技术,深层逻辑推理还是难以实现。所以知识库智能问答技术逐渐成为研究的重点。知识库智能问答技术的目标是把网络上的文本内容组成将实体作为基本语义单元的图结构,实体之间语义关系以图的边来表示。目前互联网中已有的大规模知识库大多数是以“实体一关系一实体”这种形式作为基本单元来组成的图结构。基于这样的图结构,知识库问答就是根据用户输入的问题的语义来在知识库中查找并推理出相对应的答案。

利用结构化的查询语句来完成在结构化数据上的查询、匹配、推理等相关操作是当前最有效的方式。SQL、SPARQL是目前对于知识库的存储数据格式来说最高效的查询语言。但是通常只有专业的程序员才能掌握这些语法,普通用户很难掌握并运用。对普通用户来说,他们查找信息时更愿意使用自然语言问句这种交互方式,这对于他们来说更加方便直接。由此,知识库智能问答的核心即是如何把用户的自然语言问句转化为结构化的查询语句,对于自然语言问句进行语义理解是其关键所在。

通过语义分析,将用户的自然语言问句转化成结构化的语义表示是当前最常用的方法。

基于语义的表示方法有CNN(卷积神经网络)与RNN(循环神经网络)两种。

基于语义分析的方法有如下几个步骤:

A.所需要的符合特定文法的语义分析规则集合将从带有语义表示的标注数据中抽取。每条规则最少要包含两部分,分别是自然语言和语义表示。

B.采用基于动态规划的解析算法产生句子对应语义表示候选集。

C.根据标注数据来训练排序模型,并对不同语义表示候选进行打分并排序,选取所返回的得分最高的语义表示候选作为结果。

3 相关算法研究

3.1 语句相似度计算算法

要计算两个句子的相似度,中心思想是先分词,然后将关键词汇总并放在一个列表中,最后计算词频和生成词频向量。利用余弦进行相似度计算的思路如下,用两个向量夹角的余弦值来判别两个语句是否相似。若两个向量夹角越接近0,也就是余弦值越接近1,则表明这两个对象越相似。利用余弦公式:

通过上式来计算两个向量之间的夹角的余弦值就可以计算出两个句子的相似度。

3.2 证据评分算法研究

在深度学习智能问答技术中,证据检索与评分功能是该技术的重要研究点。证据检索和评分功能包括证据文档检索和证据段落预处理、证据评分算法,本文我们重点研究评分算法。证据检索和评分功能流程图如图2所示。

主要流程:首先预处理检索出来的段落集合,筛选并留下有候选答案的语句。再将命题和证据段落集合结合,并分别通过证据评分算法计算相似度,得到段落集评分池。最后利用相关算法整合评分,得出候选答案评分集合并反馈到每个候选答案。

语义分析指运用各种机器学习深度学习相关方法,学习进而理解文本所表示的语义内容。文中所研究的一种深度学习语义评分算法主要包括基于语言表示模型和基于CNN的语义特征抽取两部分。在此重点介绍基于卷积神经网络的语义特征抽取算法。

检索命题和证据段落是证据评分算法的输入单元,基于神经网络对文本语义特征进行抽取。基于CNN的语义特征抽取算法的结构大致如图3所示:

为了减少噪声的影响,需要在输入检索命题和证据段落之前对方法预处理。文本中句子主干和命名实体中所含有的语义信息是最多的,文本经过筛选后导人算法模型。该算法模型结构主要包括四层,分别是输入层、卷积层,池化层,语义相似度计算层。

语义相似度计算层:运用余弦公式计算在池化层得到的池化矩阵P1,P2的相似度,将得到的相似度结果作为该评分算法的最终打分返回给检索命题和证据段落。

4 结语

基于深度学习的智能问答技术具有重要的研究价值和实际应用意义,是自然语言处理的重要研究对象。本文主要介绍了基于深度学习智能问答的部分相关技术以及研究了语句相似度和证据评分相关算法。这些技术和算法在智能问答技术的研究中起着至关重要的作用。随着深度学习相关技术的提高和智能问答技术的应用越来越广泛,人们对问答的准确度的需求也越来越高,高质量知识库的自动生成也是行业的一大难题,未来需要在科研人员的带领下进一步研究和创新。

参考文献:

[1]陈柏龄,基于深度学习的智能问答技术研究[Dl.南宁:广西大学,2018.

[2]胡婕,陶宏才.基于深度学习的领域问答系统的设计与实现[Jl.成都信息工程大学学报,2019,34(03):232-237.

[3]吴炳林.基于中文深度智能问答系统的证据检索和评分算法研究[D].郑州:郑州大学,2018.

[4]张素荣.智能客服问答系统关键算法研究及应用[D].南京:南京邮电大学,2018.

[5]杨兵,尹加琪,杨旸,等.现状与发展:智能问答机器人促进学习的反思[Jl.中国电化教育,2018(12):31-38.

【通联编辑:梁书】

作者简介:华颖,长江大学研究生;通讯作者:余华云,长江大学计算机科学学院,副教授,主要研究方向:多媒体信息处理,人工智能,无线传感网络。