导 师: 姜云飞
学科专业: H1202
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 当前中国许多政府部门都开展了电子政务工程,办公自动化已成为提高政府办公效率的手段之一.目前的办公自动化系统主要基于工作流的方式,对政府部门中的公文进行电子流转,体现了办公的自动化.该文应用中文自然语言处理提出了智能化政府公文辅助检索系统,用于对办公自动化中相关公文的智能检索,在办公自动化系统中加入智能化的元素.该文首先介绍了I_AD系统的背景.并提出了系统核心功能实现所需的分词和分类技术.对于分词技术,该文采用一种基于N-最短路径和HMM模型的一体化算法,利用统计和规则相结合的方法对未登录词进行识别.对于文本分类方法,提出一种基于最大熵的文本分类模型,利用文本互信息量进行特征提取,采用GIS算法生成参数,对文本分类器进行训练,最后对训练集外的文本采用最大熵算法进行识别分类.最后对系统地实现作了详细的设计,提出了主要的数据结构和函数及关系,并设计了一个系统对整个过程进行模拟.对系统的不足之处也进行了分析.
关 键 词: 公文检索 最短路径 隐马尔可夫模型 最大熵 文本分类
分 类 号: [C931.4]