导 师: 陈建国
授予学位: 硕士
作 者: ();
机构地区: 华南农业大学
摘 要: 命名实体关系抽取是信息抽取领域的重要研究课题,从应用角度而言,它属于智慧搜索、自动问答、知识图谱等系统的关键技术之一;从基础理论研究而言,它对于机器翻译、文本分类、自动摘要、新词发现等自然语言处理技术有重要研究意义。 当前国内外对于命名实体关系抽取的研究,大部分集中在ACE(Automatic Content Extraction)定义的七种主要关系类型的研究,而对于诸如农业信息领域的命名实体的研究则比较少见。此外,大部分研究方法集中在知识工程方法或机器学习方法,而其中的机器学习方法大多数使用单纯的有监督或无监督训练方法,而对于结合人工与机器学习的方法研究较为少见。 基于命名实体关系抽取的国内外研究现状,本文对香蕉命名实体关系抽取进行了较为深入的讨论,综合应用到了人工和机器学习的方法,具体而言,本文研究工作包括以下几个方面: (1)构建面向香蕉的命名实体语料库。在分析了农业信息的特点的基础上,设计了定向爬虫,并采集了香蕉网页文档。然后设计了基于网页特征的Web信息抽取模型,并完成了对Web网页信息的抽取,接着进行文本清洗、实体识别,最终抽取出命名实体对。 (2)面向香蕉的命名实体关系抽取研究。根据已构建的命名实体语料库,定义了本文所要研究和抽取的命名实体关系类型,提出了一种基于Word2Vec和种子自扩展的命名实体关系抽取模型,该模型的核心在于将命名实体对转化为数值向量,并通过计算向量之间的相似度来表征命名实体对之间的相似度,采用此模型对本文构建好的香蕉命名实体语料库进行命名实体关系抽取,设计并分析实验结果,讨论了模型效果。 (3)命名实体关系抽取系统设计与实现。针对系统的功能目标,首先设计了系统�
关 键 词: 命名实体关系抽取 网络文本挖掘 实体语料库 智慧搜索
领 域: []