中文会议: 中文信息处理前沿进展——中国中文信息学会二十五周年学术会议
会议日期: 2006-11-21
会议地点: 北京
主办单位: 中国中文信息学会
机构地区: 中国科学院计算技术研究所
出 处: 《中国中文信息学会二十五周年学术会议》
摘 要: 特征选择是解决文本分类中特征空间高维性的难题的有效方法.在文本分类中经常用到的自动特征选择方法都将词条在文档中出现一次和出现多次的情况同等对待,因而忽略了词条频率(TF)信息.本文提出了加入TF信息的改进的特征选择方法,有效的利用了TF信息,从而提高了文本分类的精确度.试验结果表明,改进的特征选择方法的试验效果比原始的特征选择方法的效果有明显的提高.
领 域: [自动化与计算机技术]