导 师: 张齐;李本富
学科专业: H12
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要:
随着计算机科学的发展,网络已经成为人们生活中不可或缺的一部分了。因特网(或称为万维网),作为计算机网络的一个重要的应用,存储着越来越多的信息。互联网为人类提供了海量的信息,可惜的是这些海量信息繁多且无序,要从海量的信息中获取所需的信息难度越来越大。因此,“信息检索”成为了当今学术界和工程界中一个越来越热的研究课题,其中,命名实体识别问题变得越来越重要。
本文主要关注的是命名实体识别的其中一个分支——中文地名识别。作者简单回顾信息检索和命名实体识别的历史及其中的一些未解决的主要问题,指出了影响中文地名识别的两大主要问题,未登词的识别和切分歧义。作者重点介绍了隐马尔可夫模型(HMM)和有限状态自动机(FSM),分析了它们在中文地名识别的应用中的一些优点和不足。
结合隐马尔可夫模型(HMM)和有限状态自动机(FSM)的优点,本文提出了一种新的中文地名识别算法,同时利用地名字典解决工程应用上的未登录词识别问题。利用本文提出的算法,作者设计了一个基于ASP.NET的中文地名识别系统,实验结果表明,该系统能够准确地识别并标识出文本中的地名,借助地名字典,可以达到更好的识别效果。
利用北大CCL测试语料作为测试数据,本文对HMM、FSM以及本文所设计的HMM和FSM综合算法进行了性能测试,以召回率R、精确率P及F值为评价标准对三种算法进行了横向比较。测试结果显示,本文设计的综合算法在3项评价指标上都有提升。
关 键 词: 信息检索 命名实体识别 中文地名识别 隐马尔可夫模型 有限状态自动机
分 类 号: [TP393.09 TP301.1]