导 师: 陈清财
学科专业: H12
授予学位: 硕士
作 者: ;
机构地区: 哈尔滨工业大学
摘 要:
随着互联网的高速发展,网络信息成爆炸式增长,百科知识已经成为人们获取知识的重要手段。人们对垂直化知识的需求对百科知识库提出了新的要求。目前网络上的百科知识库都是由志愿者人工填写和维护的,这样必然会面临着知识更新速度不够快,知识不够完整和工作量巨大等问题。因此如何自动的从互联网海量信息中抽取有用的知识,来满足各个城市的人对所在城市的某一类垂直信息的需求是本课题的主要研究内容。
本文在城市百科知识库的基础上,建立了一个城市机构名称自动抽取及机构条目自动构建系统。本文的主要工作是从互联网的海量信息中爬取与特定的城市相关的信息,自动的抽取其中的机构名称并进行判断,最终确定该机构名称是否属于这个特定的城市。本文的主要研究内容包括以下几个方面:
(1)网络信息采集:从互联网中采集并过滤出与所需要的城市相关的信息,并进行净化预处理,保证采集信息的准确性和高效性;
(2)机构名称提取:对采集到的信息进行分词和停用词的过滤,采用统计与规则相结合的方法,抽取出采集信息中的机构名称;
(3)机构名称的城市相关度判定:采用基于规则和相关特征词同现频率的方法,得出所抽取的机构名称与所在城市的相关度,从而判定机构名称是否属于该城市。
通过将以上模块整合到一起,实现了城市机构名称自动抽取及机构条目自动构建系统。该系统已经成功应用于城市百科知识库自动构建系统之中,并取得了良好的效果。
关 键 词: 信息抽取 命名实体识别 城市百科 特征抽取 同现频率
分 类 号: [TP391.3]
领 域: [自动化与计算机技术] [自动化与计算机技术]