中文会议: 第九届全国计算语言学学术会议论文集
会议日期: 2007-08-06
会议地点: 大连
主办单位: 中国中文信息学会
机构地区: 中国科学院计算技术研究所
出 处: 《第九届全国计算语言学学术会议》
摘 要: 本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。
关 键 词: 中文分词 双字耦合度 测试差 歧义处理 交叉歧义
领 域: [一般工业技术]