帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于无监督学习的专业领域分词歧义消解方法
Disambiguation of domain word segmentation based on unsupervised learning

作  者: ; ;

机构地区: 北京工业大学计算机学院

出  处: 《计算机应用》 2013年第3期780-783,共4页

摘  要: 中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。 Domain word segmentation is much more difficult than general word segmentation in Chinese natural language processing. The segmentation ambiguity has been lack of effective solution especially. Concerning this problem, an unsupervised learning method for domain segmentation ambiguity was proposed. String frequency, mutual inibrmation and boundary entropy were selected as evaluation standard for segmentation ambiguity. Individual and combination of these three kinds of information were used to solve the problem. The experimental results suggest that the proposed can solve the domain segmentation ambiguity efficiently and effectively.

关 键 词: 专业领域分词 分词歧义 字符串频次 互信息 边界熵

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 龚永丽
作者 宋永芳
作者 余健
作者 赵庆年

相关机构对象

机构 华南理工大学高等教育研究所
机构 华南理工大学
机构 暨南大学华文学院
机构 宝供物流企业集团有限公司
机构 广东外语外贸大学财经学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊