摘要:问答系统源于人们对快速、准确获取信息的需求,是信息检索系统的高级形式,其核心是计算问题和答案的语义相...问答系统源于人们对快速、准确获取信息的需求,是信息检索系统的高级形式,其核心是计算问题和答案的语义相关性。传统的计算语义相关性方法大多基于特征工程,借助句法解析器、知识库等资源来实现,计算成本高。深度学习技术由于其自动提取特征、语言间通用性好等优点,得到了广泛的应用,目前已经在计算机视觉、语音识别、句子分类、问答系统等领域取得了空前的成功。基于问答系统的良好应用前景和深度学习的高效计算能力,本文设计了一种使用深度学习计算问题和答案语义相关性的算法模型。在深度学习模型中,长短期记忆网络(Long Short Term Memory,LSTM)能“记住”上下文信息,卷积神经网络(Convolutional Neural Network,CNN)能提取局部特征,因此本文的模型结合LSTM和CNN的优势,先使用LSTM提取问答句子的语义信息,再使用CNN提取句子的抽象特征。同时,为了更全面地比较句子语义信息,本文提出了一种结合语义特征和统计特征的方式计算问题和答案的相关性。本文设计的语义特征,包括CED特征、投影特征和平行特征;统计特征包括重叠特征和BM25特征。结合两种类型的特征,可以有效计算问答相关性评分。与相关工作的评价方法一致,本文使用MAP、MRR和Top-1指标评价答案评分排序的效果。本文的实验使用了问答领域的3个公开问答数据集:TrecQA、WikiQA、InsuranceQA,首先比较了词向量、模型结构、特征选择、优化器等参数对实验结果的影响,选取最优参数测试3个数据集的效果。结果证明,本文的网络模型在这3个数据集上都取得了不错的效果,结合语义特征和统计特征可以有效计算问题和答案的相关性。与相关工作对比,虽然本文的结果还达不到最优效果,但本文的模型结构简单,容易实现,不需要特征工程和语法分析,通用性好,具有现实应用价值。更多还原显示全部