导 师: 俞勇
学科专业: H1203
授予学位: 硕士
作 者: ;
机构地区: 上海交通大学
摘 要: 语义web的构建不仅需要由本体来定义基本知识骨架,同时也需要由遵循本体而定义的实例层知识库来构建内容。虽然语义web数据逐渐增长,但是实例层的数据却依然较为稀少。语义关系是构建语义知识库的重要组成部分。因此,抽取语义关系实例对语义web的实现极其重要。 维基百科是一个免费的在线百科全书。它也是目前最大的在线知识库之一。在拥有较高覆盖面的同时,其内容也具有很高的准确度。抽取维基百科中的语义关系对知识库的构建具有很大意义。维基百科中,大量信息以文本形式呈现,尽管其中大量结构化信息可以直接作为关系抽取的有效数据来源,但大部分的语义关系仍然需要从自然语言文本中获取。 抽取维基百科自然语言文本中的语义关系有两大难点:如何有效的识别维基百科中细粒度的实体;如何基于少量的关系样例获取较高的关系抽取性能。在本文中,首先,我们提出利用维基百科结构化信息来辅助语义关系的抽取。我们借鉴了计算语言学领域的选择约束,创新性的利用维基百科的结构化信息来生成表达语义关系选择约束的特征,并提出了具体的特征选择方法。我们利用这种选择约束特征来识别和验证实体,从而有效辅助基于模式匹配的关系抽取。实验表明选择约束特征极大的提升了关系抽取的性能。此外,考虑到在维基百科文本关系抽取中,我们只能从结构化的信息表格中获取少量关系样例而缺乏相应的关系反例,同时还缺乏一个关系分类层次,因此我们引入了文本分类领域中基于正例的学习算法,创新性的将其应用到关系抽取中(据我们所知,之前尚无研究工作将基于正例的学习算法应用到关系抽取领域)。我们将原有的基于正例的学习算法转换为转导学习并基于此构建一个自训练的学习算法。在实验中,我们发现,传统的多类分类不适合我们的关系抽取任务。实验表明,在关系样例较少的情况下,基于正例的学习算法优于传统的二分类算法(我们随机提供了反例)。在正例训练数据较为稀疏的情况下,自训练算法通过牺牲少量精度来获取召回率提升,从而极大的改进了整体的抽取性能。
关 键 词: 语义知识库 维基百科 在线知识库 语义关系 抽取性能 模式匹配
分 类 号: [TP311.131]
领 域: [自动化与计算机技术] [自动化与计算机技术]