帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于多特征的自适应新词识别
Adaptive Method for Chinese New Word Identification Based on Multi-features

作  者: ; ;

机构地区: 北京工业大学计算机学院

出  处: 《北京工业大学学报》 2007年第7期718-725,共8页

摘  要: 为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间. To improve the performance of new word identification in Chinese word segment, the authors propose an adaptive method for Chinese new word identification based on multi-feature method for offline corpus processing, in which many features, including context-entropy, likelihood ratios, frequency ratio against background corpus and boundary-verification with basic segmentation are introduced to evaluate the candidate words. And all of the features are integrated into an adaptive SVM classifier. Candidate new words are extracted efficiently on PAT-Array with much less space overhead and arbitrary n-gram words can be identified by the method. The results show that the method can run fast upon new word identification and save much memory.

关 键 词: 自然语言处理系统 计算语言学 词语处理 新词识别 多特征 自适应 自动分词

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 王子义
作者 颜学湘
作者 屈娟娟
作者 孙有发
作者 李雪岩

相关机构对象

机构 广东工业大学
机构 中山大学
机构 中山大学新华学院
机构 广东外语外贸大学
机构 广东工业大学管理学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊